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CHAPITRE 1. INTRODUCTION 


Chapitre 1 
Introduction 


1.1 Robot Mobile 

La robotique est un tres bon exemple de domaine pluri-disciplinaire qui implique de nom- 
breuses thematiques telles que la mecanique, la mecatronique, I’electronique, I’automatique, I’in- 
formatique ou I’intelligence artificielle. En fonction du domaine d’origine des auteurs, il existe done 
diverses definitions du terme robot, mais elles tournent en general autour de celle-ci: 

Un robot est une machine equipee de capacites de perception, de decision et d’action 
qui lui permettent d’agir de maniere autonome dans son environnement 
en fonction de la perception qu’il en a. 


Perceptions 



Actions 


Figure 1.1 - Schema des interactions d’un robot avec son environnement. Selon les ap- 
proches, un modele interne de /’environnement peut etre utilise ou non. 

Cette definition s’illustre par un schema classique des interactions d’un robot avec son envi¬ 
ronnement (Figure 1.1). Les differentes notions que nous presenterons dans ce cours sont es- 
sentiellement issues de cette vision de la robotique, tres orientee sur I’lntelligence Artificielle, qui 
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1.2. OBJECTIFS DU COURS 


place au centre des preoccupations I’enchaTnement de ce cycle Perception/Decision/Action . La 
maniere dont un robot gere ces differents elements est definie par son architecture de controle, 
qui la plupart du temps va faire appel a un modele intercede I’environnement qui lui permettra de 
planifier ses actions a long terme. 


1.2 Objectifs du cours 

Lobjectif de ce cours est de fournir un apergu des problemes de la robotique mobile et des 
solutions actuelles. Ce cours se veut proche de la recherche, en presentant des methodes ap- 
parues dans les dernieres annees, mais presente egalement les notions de base necessaires a 
leur comprehension, ainsi qu’un panorama de techniques classiques dont la portee va au dela de 
leur application en robotique mobile. La lecture des nombreuses references a des articles scienti- 
fiques ou a des ouvrages de reference (la plupart du temps en anglais) n’est evidement pas utile 
pour la comprehension du cours, mais doit permettre d’approfondir des points particuliers hors 
de la portee de ce cours. 

La robotique mobile est un domaine dans lequel I’experience pratique est particulierement 
illustratrice et importante pour la comprehension des problemes. Au dela des methodes presen¬ 
tee dans ce texte, les travaux diriges ou le projet pratique associes que realisent les etudiants 
apporteront egalement leur lot de connaissances irremplagables. 


1.3 (Tres) Bref apergu historique 



Figure 1.2 - La tortue de Grey Walter (nommee “machina speculatrix” et surnommee Elsie) 
et une illustration de sa trajectoire pour rejoindre sa niche. 


Le terme de robot apparaTt pour la premiere fois dans une piece de Karel Capek en 1920 : 
Rossum’s Universal Robots. II vient du tcheque ’robota’ (~ servitude) et presente une vision des 
robots comme serviteurs dociles et efficaces pour realiser les taches penibles mais qui deja vont 
se rebeller contre leurs createurs. 
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CHAPITRE 1. INTRODUCTION 


La Tortue construite par Grey Walter dans les annee 1950 (Figure 1 .2), est I’un des premiers 
robots mobiles autonomes. Grey Walter n’utilise que quelques composants analogiques, dont 
des tubes a vide, mais son robot est capable de se diriger vers une lumiere qui marque un 
but, de s’arreter face a des obstacles et de recharger ses batteries lorsqu’il arrive dans sa niche. 
Toutes ces fonctions sont realisees dans un environnement entierement prepare, mais restent des 
fonctions de base qui sont toujours des sujets de recherche et de developpement technologiques 
pour les rendre de plus en plus generiques et robustes. 



Figure 1.3 - A gauche : Robot "Beast" de I’universite John Hopkins dans les annees 1960. 
A droite : Le robot Shakey de Stanford en 1969 a ete une plate-forme de demonstration des 
recherches en intelligence artificielle. 


Dans les annees 60, les recherches en electronique vont conduire, avec I’apparition du tran¬ 
sistor, a des robots plus complexes mais qui vont realiser des taches similaires. Ainsi le robot 
"Beast" (Figure 1.3) de I’universite John Hopkins est capable de se deplacer au centre des cou¬ 
loirs en utilisant des capteurs ultrason, de chercher des prises electriques (noires sur des murs 
blanc) en utilisant des photo-diodes et de s’y recharger. 

Les premier liens entre la recherche en intelligence artificielle et la robotique apparaissent 
a Stanford en 1969 avec Shakey (Figure 1.3). Ce robot utilise des telemetres a ultrason et une 
camera et sert de plate-forme pour la recherche en intelligence artificielle, qui a I’epoque travaille 
essentiellement sur des approches symboliques de la planification. La perception de I’environ- 
nement, qui a I’epoque est consideree comme un probleme separe, voire secondaire, se revele 
particulierement complexe et conduit la aussi a de fortes contraintes sur I’environnement. Ces 
developpements de poursuivent avec le Stanford Cart dans la fin des annees 1970, avec notam- 
ment les premieres utilisations de la stereo-vision pour la detection d’obstacles et la modelisation 
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1.3. (TRES) BREF APERQU HiSTORiQUE 




Figure 1.4 - Le Stanford Cart date de la fin des annees 1970. Le robot Hilare du LAAS a ete 
construit en 1977. 


de I’environnement. En France, le robot Hilare est le premier robot construit au LAAS, a Toulouse 
(Figure 1 .4). 

Une etape importante est a signaler au debut des annees 1990 avec la mise en avant de 
la robotique reactive, representee notamment par Rodney Brooks. Cette nouvelle approche de la 
robotique, qui met la perception au centre de la problematique, a permis de passer de gros robots 
tres lents a de petits robots (Figure 1 .5), beaucoup plus reactifs et adaptes a leur environnement. 
Ces robots n’utilisent pas ou peu de modelisation du monde, problematique qui s’est averee etre 
extremement complexe. 



Figure 1.5 - Genghis, developpe par Rodney Brooks au MIT au debut des annees 1990. 

Ces developpements ont continue et I’arrivee sur le marche depuis les annees 1990 de plates- 
formes integrees telles que le pioneer de la societe Mobile Robots a permis a de tres nombreux 
laboratoires de travailler sur la robotique mobile et a conduit a une explosion de la diversity des 
themes de recherche. Ainsi, meme si les problemes de deplacement dans I’espace et de mo- 
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delisation de I’environnement restent difficiles et cruciaux, des laboratoires ont pu par exemple 
travailler sur des approches multi-robot, la problematique de I’apprentissage ou sur les problemes 
d’interactions entre les hommes et les robots. 


1.4 Exemples d’applications 

Aujourd’hui, le marche commercial de la robotique mobile est toujours relativement restreint 
en dehors des robots aspirateurs vendus a plusieurs millions d’exemplaires. Cependant, il existe 
de nombreuses perspectives de developpement qui en feront probablement un domaine impor¬ 
tant dans le futur. Les applications des robots peuvent se trouver dans de nombreuses acti- 
vites "ennuyeuses, salissantes ou dangereuses" (3 D’s en anglais pour Dull, Dirty, Dangerous), 
mais egalement pour des applications ludiques ou de service, comme I’assistance aux personnes 
agees ou handicapees. 



Figure 1.6 - Exemples de robots commerciaux ou de recherche. 
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1.5. POUR ALLER PLUS LOIN 


Parmi les domaines d’applications possibles de la robotique, citons : 

- La robotique de service (hopital, bureaux, maison), 

- La robotique de loisir (jouets, robot ’compagnon’), 

- La robotique industrielle ou agricole (entrepots logistiques, recolte de productions agricoles, 
mines), 

- La robotique en environnement dangereux (spatial, industriel, militaire, catastrophes natu- 
relles). 

A cela, s’ajoute a I’heure actuelle des nombreuses plates-formes congues essentiellement 
pour les laboratoires de recherche. La figure 1.6 montre quelques exemples de robots existants. 


1.5 Pour aller plus loin 

Les illustrations de ce chapitre sont, entre autre, tirees du livre "ROBOT : mere machine to 
transcendent mind" de Hans Moravec [ 02], dont les illustrations sont disponibles en ligne 1 . 

Le livre de Daniel Ichbiah "Robots, Genese d’un peuple artificiel" [71] donne egalement un 
bon apergu "grand public" de la robotique et de sont histoire 2 . 


1. http ://www.frc.ri.cmu.edu/ hpm/book98/ 

2. http ://ichbiah.online.fr/pagerobots.htm 
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Premiere partie 
Les bases de la navigation 
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Dans cette partie, nous presentons les differentes categories de methodes de navigation utili- 
sables pour un robot mobile et les architectures de controle associees. Nous presentons ensuite 
les informations qu’un robot pourra utiliser pour se deplacer, ainsi que les capteurs et les plates- 
formes couramment utilisees en robotique. 
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CHAPITRE 2. LES DIFFERENTS TYPES DE NAVIGATION 


Chapitre 2 

Les differents types de navigation 


2.1 Les strategies de navigation 

Les strategies de navigation permettant a un robot mobile de se deplacer pour rejoindre un 
but sont extremement diverses, de meme que les classifications qui peuvent en etre faites. Afin 
de situer les differentes methodes de navigation que nous allons etudier dans un contexte gene¬ 
ral, nous reprenons ici une classification etablie par Trullier et al. [ 38, 140]. Cette classification 
a ete etablie en prenant en compte a la fois les strategies des robots et des animaux. Elle pre¬ 
sente I’avantage de distinguer les strategies sans modeles internes et les strategies avec modele 
interne. 

Cette classification comporte cinq categories, de la plus simple a la plus complexe : 

- Approche d’un objet : cette capacite de base permet de se diriger vers un objet visible 
depuis la position courante du robot. Elle est en general realisee par une remontee de 
gradient basee sur la perception de I’objet, comme dans I’exemple celebre des vehicules 
de Valentino Braitenberg [19] (voir section 5.1) qui utilisent deux capteurs de lumiere pour 
atteindre ou fuir une source lumineuse. Cette strategie utilise des actions reflexes, dans 
lesquelles chaque perception est directement associee a une action. C’est une strategie 
locale, c’est-a-dire fonctionnelle uniquement dans la zone de I’environnement pour laquelle 
le but est visible. 

- Guidage : cette capacite permet d’atteindre un but qui n’est pas un objet materiel direc¬ 
tement visible, mais un point de I’espace caracterise par la configuration spatiale d’un en¬ 
semble d’objets remarquables, ou amers, qui I’entourent ou qui en sont voisins. La strate¬ 
gie de navigation, souvent une descente de gradient egalement, consiste alors a se diri¬ 
ger dans la direction qui permet de reproduire cette configuration. Cette capacite semble 
utilisee par certains insectes, comme les abeilles [26], et a ete utilisee sur divers robots 
[54, 86, 58, 114] (voir sections 5.2 et 5.3). Cette strategie utilise egalement des actions re¬ 
flexes et realise une navigation locale qui requiert que les amers caracterisant le but soient 
visibles. 

- Action associee a un lieu : cette capacite est la premiere capacite realisant une navigation 
globale, c’est-a-dire qui permette de rejoindre un but depuis des positions pour lesquelles 
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Obstacles 
Lieux memorises 
Zone inexploree 

Direction a prendre pour atteindre le lieu A 
Trajectoire suivie par 1’animat 


Figure 2.1 - Action associee a un lieu. En chaque lieu, represente par un cercle, I’action a 
accomplir pour rejoindre le but A est representee par une fleche indiquant la direction a suivre 
a partir de ce lieu. Cette strategie permet de rejoindre un but distant dans I’environnement 
mais repose sur des chemins figes. Dans cet exemple, le chemin joignant le lieu D au lieu 
A et passant par la droite de /’obstacle a ete appris. Rejoindre le lieu A depuis le lieu D ne 
pourra alors etre realise que par ce chemin. Le raccourci empruntant le chemin de gauche, 
par exemple, est inutilisable. 



o 


ce but ou les amers qui caracterisent son emplacement sont invisibles (par exemple [ 14]. 
Elle requiert une representation interne de I’environnement qui consiste a definir des lieux 
comme des zones de I’espace dans lesquelles les perceptions restent similaires, et a as- 
socier une action a effectuer a chacun de ces lieux (cf. figure 2.1). L’enchainement des 
actions associees a chacun des lieux reconnus definit une route qui permet de rejoindre le 
but. Ces modeles permettent done une autonomie plus importante mais sont limites a un 
but fixe. Une route qui permet de rejoindre un but ne pourra en effet pas etre utilisee pour 
rejoindre un but different. Changer de but entramera I’apprentissage d’une nouvelle route, 
independante des routes permettant de rejoindre les autres buts. 


A 




Obstacles 
Lieux memorises 
Zone inexploree 

Possibility de passer d’un lieu a un autre 
Trajectoire suivie par 1’animat 


Figure 2.2 - Navigation topologique. Cette strategie permet de memoriser un ensemble 
de lieux et les possibilites de passer de I’un a I’autre, independamment de tout but. Pour 
rejoindre un but, il taut alors une etape de planification qui permet de rechercher, parmi tous 
les chemins possibles, le chemin rejoignant le but. Dans notre exemple, le chemin le plus 
court entre D et A peut alors etre calcule, mais uniquement parmi les lieux et les chemins 
deja connus. Cette strategie permet, par exemple, de contourner /’obstacle par la gauche 
mais ne permet pas de le traverser en ligne droite de D a A. 
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- Navigation topologique : cette capacite est une extension de la precedente qui memo¬ 
rise dans le modele interne les relations spatiales entre les differents lieux. Ces relations 
indiquent la possibilite de se deplacer d’un lieu a un autre, mais ne sont plus associees a 
un but particulier. Ainsi le modele interne est un graphe qui permet de calculer differents 
chemins entre deux lieux arbitraires. Ce modele ne permet toutefois que la planification de 
deplacements parmi les lieux connus et suivant les chemins connus (cf. figure 2.2). 

Obstacles 
Lieux memorises 

Possibilite de passer d’un lieu a un autre 

Zone inexploree 

Trajectoire suivie par 1’animat 

Possibilite de passer d’un lieu a un autre 
deduite de leur position relative 



Figure 2.3 -Navigation metrique. Cette strategie permet de calculer le chemin le plus court 
entre deux lieux memorises, permettant meme de planifier des raccourcis au sein de zones 
inexplorees de I’environnement. Pour cela, la carte memorise la position metrique relative de 
chacun des lieux visites par le robot. Ainsi il est possible de prevoir un deplacement entre 
deux lieux, meme si la possibilite de ce deplacement n’est pas enregistree dans la carte. 

Dans cet exemple, cette strategie permet de d’alter du lieu A au lieu D en traversant la zone 
inexploree. 

- Navigation metrique : cette capacite est une extension de la precedente car elle permet 
au robot de planifier des chemins au sein de zones inexplorees de son environnement. 
Elle memorise pour cela les positions metriques relatives des differents lieux, en plus de 
la possibilite de passer de I’un a I’autre. Ces positions relatives permettent, par simple 
composition de vecteurs, de calculer une trajectoire allant d’un lieu a un autre, meme si la 
possibilite de ce deplacement n’a pas ete memorisee sous forme d’un lien (cf. figure 2.3). 

Les modeles des trois premieres categories utilisent des actions reflexes pour guider le robot 
et se differencient essentiellement par le type de perceptions utilisees pour declencher ces ac¬ 
tions. Ils se regroupent sous le terme generique de navigation reactive dont nous parlerons dans 
la partie II. Ils peuvent etre tres simple, ne necessitent pas de modele global de I’environnement 
mais ont un domaine d’application souvent restreint. Dans le monde vivant, ces strategies sont 
tres repandues, notamment chez les insectes. Les comportements de ce type restent toutefois 
essentiels dans les robots modernes car, du fait de leur simplicity, il sont generalement executes 
tres rapidement et ils permettent de realiser des taches de bas-niveau, comme I’evitement des 
obstacles imprevus, essentielles a la securite d’un robot. 

Les modeles des deux dernieres categories autorisent pour leur part une navigation globale 
et permettent de rejoindre un but arbitraire au sein de I’environnement. Ils s’appuient pour cela 
sur un modele interne du monde, une carte, qui supporte une planification. Ce modele interne 
memorise done la structure spatiale de I’environnement, independamment d’un but precis. Cha- 
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2 . 2 . LES ARCHITECTURES DE CONTROLE 


cune des positions memorisees dans ce modele interne peut alors etre utilisee comme but par 
le processus de planification dont le role est de calculer une route vers ce but. Ce sont ces deux 
strategies qui sont regroupees sous le terme de navigation par carte, objet du chapitre III . 

Une telle representation interne est naturelle pour les etres humains, pour lesquels des pro¬ 
cessus cognitifs de haut niveau sont utilises pour creer et utiliser une carte. Ces processus de 
haut niveau sont toutefois tres difficile a copier pour un robot reel qui ne dispose que de sys- 
temes rudimentaires de perception et de traitement des informations en comparaison avec un 
homme. Par exemple, en environnement urbain, le processus de mise en correspondance de la 
carte avec I’environnement reel afin de determiner sa position fait souvent appel, pour I’homme, 
a la lecture du nom des rues inscrit sur les batiments, ce qui est relativement difficile a automa- 
tiser, a cause de la diversity des configurations dans lesquelles peuvent ce trouver ces noms. 
On notera au passage que I’homme a quasiment toujours recours a des amenagements particu¬ 
lars de I’environnement pour connaitre sa position, par exemple celui qui consiste a nommer les 
rues ou a lancer des satellites dans I’espace pour beneficier du GPS. Le systeme de navigation 
ideal pour un robot mobile sera probablement celui qui sera capable de tirer partie de toutes ces 
informations, qui ne lui etaient pas destinees a I’origine. 

Lutilisation de cartes par un robot mobile comme le font les hommes est probablement hors de 
notre portee pendant quelques annees, cependant il existe egalement des preuves de I’existence 
de representations internes similaires a de telles cartes chez les animaux, par exemple chez les 
rats. Ces representations sont identifiables au niveau neurologiques dans certaines parties de 
leur cerveau, notamment dans I’hippocampe. Cela montre que des cartes sont utilisee par des 
etres vivants, sans le support de concept abstraits tels que les utilisent les humains. Ce type de 
carte qui fait appel a des structures neurologiques de base et probablement a des perceptions 
relativement simples, est un paradigme interessant pour les robots mobiles. 

En robotique mobile, comme pour I’homme ou certains animaux, l utilisation de cartes est 
quasiment indispensable pour permettre d’effectuer des taches de navigation dans des condi¬ 
tions environnementales complexes, qui ne sont pas specialement adaptees pour le robot. La 
construction et Lutilisation de telles cartes posent cependant de nombreux problemes, notam¬ 
ment pour garantir I’adequation entre la carte et le monde reel. Pour cette raison, la plupart des 
robots trouvent aujourd’hui un compromis entre une approche reactive et une approche utilisant 
une carte afin de beneficier de la rapidite et de la robustesse de la premiere et de la capacite de 
deplacement a long terme de la seconde. 


2.2 Les architectures de controle 

Un robot est un systeme complexe qui doit satisfaire a des exigences variees et parfois contra- 
dictoires. Un exemple typique pour un robot mobile est I’arbitrage qui doit etre fait entre I’execution 
la plus precise possible d’un plan preetabli pour atteindre un but et la prise en compte d’elements 
imprevus, tels que les obstacles mobiles. Ces arbitrages, que ce soit au niveau du choix de stra¬ 
tegic, ou au niveau de Lutilisation des capteurs, des effecteurs ou des ressources de calcul, sont 
regies par un ensemble logiciel appele architecture de controle du robot. Cette architecture per- 
met done d’organiser les relations entre les trois grandes fonctions que sont la perception, la 
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decision et Taction . 

Nous pouvons reprendre la definition de Ronald Arkin [4] de I’art de concevoir de telles archi¬ 
tectures : 

Robotic architecture is the discipline devoted to the design of highly specific and individual robots 
from a collection of common software building blocks. 

Selon cette definition une architecture doit done etre congue pour un robot precis, mais en 
utilisant des modules generiques. De maniere plus generate il existe egalement des regies de 
conception relativement generates qui permettent de realiser ces implementations. En fonction 
de ces regies, les architectures de controle peuvent etre classees en trois grandes categories 
que nous detaillerons par la suite : les controleurs hierarchiques, les controleurs reactifs et les 
controleurs hybrides (Figure 2.4). Comme le precise cette definition, toutes ces architectures ne 
different pas forcement par les methodes elementaires employees mais plutot par leur agence- 
ment et leur relations. 

A B C 



Figure 2.4 - Illustration des architectures classiques des controleurs pour les robots mo¬ 
biles : Hierarchique (A), Reactive (B) et Hybride (C) (Voir le texte pour la description detaillee). 


2.2.1 Controleurs Hierarchiques 

Historiquement, les premiers robots mobiles derives des recherches en intelligence artificielle 
utilisaient des controleurs hierarchiques (cf. figure 2.4 A) dont le fonctionnement repose essentiel- 
lement sur la capacite de decision travaillant sur un modele du monde suppose quasiment-parfait. 
Ces architectures fonctionnent selon un cycle rigide de modelisation de I’environnement, planifi- 
cation des actions au sein de cette representation, puis execution du plan. La capacite de decision 
etait issue des premiers travaux en intelligence artificielle et reposait essentiellement sur des trai- 
tements de donnees symboliques. Ces architectures ont rapidement montre leurs limites et leur 
incapacity a fonctionner dans un environnement qui ne soit pas statique et simplifie a I’extreme. 

Lessentiel des problemes de ces architectures provient de I’utilisation d’un modele interne 
central qui est le seul pris en compte pour guider le robot. Elies se trouvent confrontees a tout les 
problemes des premiers developpements de I’intelligence artificielle symbolique. 
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Ces architectures supposent premierement qu’un modele informatique du monde puisse re¬ 
presenter toutes les informations pertinentes pour le deplacement du robot. Or un tel modele ne 
peut etre suffisant dans un environnement dynamique car au moment de la realisation de Tac¬ 
tion Tenvironnement peut avoir suffisamment change pour que la decision ne soit plus valide. Ce 
probleme etait particulierement crucial au debut de la robotique mobile ou les capacites de calcul 
limitees entrainaient des temps de planification de Tordre de plusieurs dizaines de minutes. Mais 
Taugmentation des capacites de calcul ne suffit pas a resoudre ce probleme qui ne permet pas 
de gerer un environnement de travail realiste. C’est un probleme intrinseque lie d’une part a la 
trop grande longueur de la boucle qui relie la perception a Taction et d’autre part a Tinvalidite de 
Thypothese de monde clos faite en intelligence artificielle 1 . 

De plus, ces architectures permettent peu de controle sur Texecution des actions. En effet, 
une fois Taction choisie, elle est executee en supposant le modele du monde correct et il n’y a pas 
de retour direct de la perception sur Texecution de Taction. Les ecarts modeles/environnement ne 
peuvent etre pris en compte que via un nouveau cycle perception/modelisation/planification, ce 
qui, par definition, est tres peu reactif et conduit rapidement a de graves problemes. 


2.2.2 Controleurs reactifs 

Rodney Brooks [20] a propose une solution radicale a tous ces problemes sous la forme d’une 
architecture reactive (cf. figure 2.4 B). Dans cette architecture, un ensemble de comportements 
reactifs, fonctionnant en parallele, controle le robot sans utiliser de modele du monde. Cette ar¬ 
chitecture supprime evidemment les problemes dus aux differences entre la realite, d’une part, 
et le modele de Tenvironnement du robot, d’autre part, mais limite clairement les taches que peut 
effectuer le robot (cf. [77] pour une critique). En effet, sans representation interne de I’etat de 
Tenvironnement, il est tres difficile de planifier une suite d’actions en fonction d’un but a atteindre. 
Les robots utilisant cette architecture sont done en general efficaces pour la tache precise pour 
laquelle ils ont ete congus, dans Tenvironnement pour lequel ils ont ete prevus, mais sont souvent 
difficiles a adapter a une tache differente. 

Les reussites de ces architectures sont liees au couplage direct entre la perception et Taction 
qui permet une prise en compte tres rapide des phenomenes dynamiques de Tenvironnement. 
En done une bonne robustesse dans des environnements complexes. 

Comme nous I’avons mentionne, ces architectures sont en general basees sur plusieurs com¬ 
portements : evitement d’obstacles, deplacement aleatoire, deplacement vers un but, fuite d’un 
point... Pour guider le robot, il faut done choisir a chaque instant lequel de ces comportements 
activer. Ce probleme est connu dans la literature scientifique sous le nom de selection de /’action. 
La solution proposee par Brooks, T architecture de subsomption [21] est devenue un classique et 
utilise une hierarchie des comportements qui se declenchent done selon un ordre de priorite en 
fonction des perceptions du robot. 


1. L’hypothese de monde clos dit que la representation symbolique d’un probleme va etre suffisante pour pouvoir 
representer toutes les consequences des actions realisees dans ce monde. Cela s’avere impossible en pratique pour 
des problemes autre que des problemes jouets (par exemple un monde de cubes poses sur une table). 
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2.2.3 Controleurs hybrides 

La plupart des controleurs actuellement utilises choisissent une solution intermediaire entre 
ces deux approches sous la forme d’une architecture hybride [104, 3] (cf. figure 2.4 C). Cette 
architecture se compose de deux niveaux. Le premier est charge des taches de navigation de 
haut niveau, telles que la localisation, la cartographie et la planification. Pour cela, il s’appuie sur 
un second niveau reactif qui est charge d’executer les commandes avec le plus de precision pos¬ 
sible et de gerer les elements non modelises de I’environnement tels que les obstacles inconnus 
ou dynamiques. L’action conjointe de ces deux niveaux permet de reagir rapidement face aux 
variations imprevues de I’environnement, tout en permettant la realisation d’actions planifiees a 
plus long terme. 

Le bas niveau de ces architectures peut etre realise sous forme de comportements, tels que 
ceux utilises dans les architectures reactives. Ces comportements sont des boucles sensorimo- 
trices qui relient les action aux perceptions avec un phase de decision tres courte, qui assure la 
reactivite. Dans le meme temps, les informations sensorielles sont utilisees par le haut niveau 
dans une boucle sensorimotrice a une echelle de temps beaucoup plus longue. C’est la mise en 
parallels de ces deux echelles de temps qui fait la force de ces architectures. 

Les exemples d’architectures hybrides foisonnent (4D/RCS, 3T, Harpic...) car de tres nom- 
breux laboratoires et organismes travaillant sur la robotique ont developpe leur architecture de ce 
type. 

2.2.4 Pour aller plus loin 

Deux livres interessants sur le sujet: 

- Introduction to Al Robotics de Robin Murphy, MIT Press 

- Behavior based robotics de Ronald C. Arkin, MIT Press 
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Chapitre 3 

Les sources d’information 


Tous les capteurs utilises en robotique mobile fournissent des informations appartenant a I’une 
de deux grandes categories d’informations : les informations proprioceptives et les informations 
exteroceptives. 

- Les informations proprioceptives sont des informations internes au robot qui le renseignent, 
dans le cas de la navigation, sur son deplacement dans I’espace. Ces informations peuvent 
provenir de la mesure de la rotation de ses roues ou de la mesure de I’acceleration grace 
a une centrale inertielle. Un processus d’integration permet alors, en accumulant ces in¬ 
formations au cours du temps, d’estimer la position relative de deux points par lesquels le 
robot est passe. 

- Les informations exteroceptives ou plus simplement les perceptions, sont des informations 
caracteristiques d’une position que le robot peut acquerir dans son environnement. Ces 
informations peuvent etre de nature tres variee. Par exemple, un robot peut mesurer la 
distance des obstacles avec des capteurs infrarouges ou utiliser une camera. 

Ces deux sources d’information ont des proprietes opposees que nous detaillons dans les 
deux sections suivantes. 


3.1 Informations proprioceptives 

Les informations proprioceptives renseignent sur le deplacement du robot dans I’espace. Elies 
constituent done une source d’information tres importante pour la navigation. Cependant, la pre¬ 
cision de cette information se degrade continuellement au cours du temps, la rendant inutilisable 
comme seule reference a long terme. Cette degradation continuelle provient de I’integration tem- 
porelle des mesures effectuees par les capteurs internes. En effet, chaque capteur produit une 
mesure bruitee du deplacement instantane, de la vitesse ou de I’acceleration du robot. Ce bruit, 
via le processus d’integration qui a pour but d’estimer le deplacement, conduit inevitablement a 
une erreur croissante. 

Malgre ce defaut important, les informations proprioceptives ont I’avantage de dependre assez 
peu des conditions environnementales qui perturbent fortement les informations perceptives. La 
vision, par exemple sera fortement perturbee si I’environnement est plonge dans le noir, mais 
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les informations proprioceptives fourniront une information identique, que I’environnement soit 
eclaire ou non. De plus, comme nous le verrons dans la section suivante, si deux lieux identiques 
du point de vue des perceptions se trouvent dans I’environnement, les informations perceptives 
ne permettent pas de les differencier. Les informations proprioceptives sont alors le seul moyen 
de les distinguer. 

En robotique, cette information a de plus I’avantage de la simplicity de manipulation. En ef- 
fet, le processus d’integration fournit directement une estimation de la position du robot dans un 
espace euclidien dote d’un repere cartesien. Dans ce type de repere, tous les outils de la geome- 
trie mathematique sont utilisables. Ms permettent, par exemple, d’effectuer des calculs de chemin 
relativement simples lorsque Ton connaTt la position du but et des obstacles. 


3.2 Informations exteroceptives 

Les informations exteroceptives, ou plus simplement les perceptions , fournissent un lien 
beaucoup plus fort entre le robot et son environnement. En effet, les informations propriocep¬ 
tives fournissent des informations sur le deplacement du robot, alors que les informations percep¬ 
tives fournissent des informations directement sur la position du robot dans I’environnement. Ces 
informations assurent un ancrage dans I’environnement, en permettant de choisir des percep¬ 
tions qui peuvent etre utilisees comme points de repere. Ces points de repere sont independants 
des deplacements du robot et pourront etre reconnus quelle que soit I’erreur accumulee par les 
donnees proprioceptives. La reconnaissance de ces points est evidemment soumise a une in¬ 
certitude, mais pas a une erreur cumulative, ce qui les rend utilisables comme reference a long 
terme. 

3.2.1 Variability perceptuelle 

Pour etre utile, un systeme de perception doit done permettre de distinguer le plus de lieux 
possible. Pour cela, il doit etre capable de distinguer le plus de details possibles, afin de faire la 
difference entre deux lieux differents mais d’apparences similaires. Or I’augmentation de cette 
capacite a distinguer de petites variations dans I’environnement rend le systeme sensible au 
probleme de la variabilite perceptuelle , e’est a dire au changement de perception au cours du 
temps pour un lieu donne. Cette variability peut etre due au bruit inherent au processus de mesure 
ou a des variations de I’environnement non significatives pour le probleme de navigation qui nous 
concerne, par exemple le changement de luminosity. Pour s’affranchir de ce probleme, il faut en 
general mettre en place des processus de traitement des perceptions qui permettront de ne pas 
dependre de ces variations et de correctement identifier un lieu donne. 

3.2.2 Perceptual aliasing 

En cherchant a limiter la dependance aux variations de I’environnement, le concepteur de 
robot aboutit en general au probleme du perceptual aliasing ou d’Ambiguite des perceptions. Ce 
probleme designe I’incapacite d’un systeme de perception a distinguer de maniere unique tous 
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les lieux d’un environnement. Cette situation est tres courante lorsque les robots utilisent des 
capteurs de distance aux obstacles tels que les capteurs a ultrasons. Dans un environnement 
interieur de tels capteurs sont, par exemple, capables de mesurer la position du robot par rapport 
a un coin, mais ne fournissent aucune information sur la position le long d’un couloir rectiligne. 
Toutes les positions le long d’un couloir correspondent alors a des perceptions identiques. 

II est possible d’utiliser des capteurs qui fournissent des donnees plus precises ou plus dis- 
criminantes. Dans le cas des capteurs de distance, il est, par exemple, possible d’utiliser un 
telemetre laser qui pourra distinguer les renfoncements des portes et sera ainsi plus precis. Mais 
meme en utilisant des capteurs plus informatifs, comme une camera, ce probleme finit par ap- 
paraitre lorsque la taille de I’environnement augmente. II existe toujours une limite materielle ou 
logicielle au dela de laquelle I’identification unique de toutes les positions d’un environnement 
est impossible. II n’est done pas possible, en general, de regler completement le probleme du 
perceptual aliasing, mais seulement d’en repousser I’apparition. II faut done bien etudier les cap¬ 
teurs necessaires en fonction des traitements realisables et de I’environnement vise pour limiter 
ce probleme. 


3.2.3 Utilisation directe 

Les capteurs sur un robot mobile peuvent etre de nature tres variee et etre utilises de nom- 
breuses fagons differentes. II est toutefois possible de distinguer deux utilisations distinctes de 
leurs donnees pour la navigation. Ces deux utilisations dependent de I’utilisation ou non d’un mo- 
dele metrique associe au capteur, modele qui permet de traduire les valeurs brutes du capteur 
en informations sur la geometrie de I’environnement. Ce modele permet notamment de prevoir la 
variation des mesures renvoyees par ce capteur en fonction du deplacement du robot. 

Les perceptions peuvent etre utilisees de maniere directe, sans aucun modele metrique, pour 
comparer directement deux positions en examinant les perceptions recueillies en ces lieux. Cette 
methode ne permet cependant que de reconnaTtre des lieux de I’environnement prealablement 
explores par le robot. Sans modele de la variation des capteurs, il est en effet impossible de 
prevoir les valeurs que les capteurs releveront dans un lieu inexplore, meme s’il est proche ou 
entoure de lieux connus. 

Pour une telle utilisation directe, seules deux procedures permettant, d’une part, de memoriser 
une perception et, d’autre part, de comparer deux perceptions, sont alors necessaires. Ces pro¬ 
cedures peuvent etre mises en oeuvre a partir de tous les types de capteurs existants. II est, par 
exemple, possible d’utiliser la couleur dominante de I’environnement autour du robot, la tempera¬ 
ture (en supposant qu’elle caracterise une zone de I’environnement, comme pour une chambre 
froide), la force du signal wifi ou le temps de retour d’une onde sonore quand elle est envoyee 
dans une direction donnee. La seule propriety utilisee est la Constance des valeurs mesurees 
par un capteur pour un lieu donne. Cette Constance permet de reconnaTtre un lieu deja visite ou 
d’identifier un lieu nouveau dans I’environnement. 
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3.2.4 Utilisation d’un modele metrique 


La seconde methode d’utilisation d’un capteur consiste a utiliser un modele metrique associe 
. Un tel modele permet de traduire les informations donnees par le capteur dans un espace 
metrique qui est en general le meme que celui utilise pour estimer la position du robot grace a 
I’odometrie. II est ainsi possible d’estimer la position d’objets de I’environnement par rapport au 
robot, et ainsi de prevoir les donnees que ce capteur relevera pour des positions differentes du 
robot. L’utilisation d’un tel modele n’est toutefois possible que pour certains capteurs. II est, par 
exemple, possible d’utiliser un tel modele associe a un capteur a ultrasons, a un telemetre laser 
ou a une paire de cameras stereoscopique, mais pas a un capteur d’odeur. 





© 


Figure 3.1 - Un modele metrique pour un capteur permet deux utilisations de ses donnees. 

La premiere est similaire a cette qui traite de telles donnees sans modele metrique et requiert 
la simple memorisation de ce qui est pergu en un lieu donne (Partie a). La seconde utilise ces 
donnees pour reconstituer les objets rencontres dans I’environnement, objets qui pourront 
tous etre memorises dans un cadre de reference commun, independamment de la position 
depuis laquelle ils ont ete pergus (Partie b). 

Avec un tel modele, les valeurs des capteurs peuvent etre utilisees simplement pour caracteri- 
ser chaque lieu atteint par le robot (cf. figure 3.1a). La methode est alors la meme que celle mise 
en place quand les capteurs sont utilises sans modele metrique. L’utilisation d’un modele me¬ 
trique presente toutefois I’avantage que les informations recueillies ont une semantique plus forte 
et une certaine independance au point de vue du robot. En effet, ces informations caracterisent la 
structure spatiale locale de I’environnement, en plus de la simple apparence de I’environnement 
depuis la position du robot. Cette structure spatiale peut alors etre utilisee lors de la comparaison 
de differents lieux. II est par exemple possible de reconnaTtre un couloir en fonction de sa largeur, 
independamment de la position du robot dans ce couloir. En effet, sans utilisation de modeles 
metriques, deux perceptions recueillies en des positions differentes du couloir seront simplement 
differentes. En utilisant un modele metrique, il est possible de calculer la largeur du couloir, par 
exemple, a partir des donnees recueillies et ainsi de determiner si ces deux positions peuvent 
correspondre au meme couloir. 

Cependant, grace a un modele metrique, les perceptions peuvent etre utilisees de maniere 
differente. En effet, dans I’utilisation precedente, sans modele metrique, elles sont utilisees pour 
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Figure 3.2 - Un modele metrique des perceptions permettent d’inferer les valeurs qui de- 
vraient etre pergues pour des positions encore non visitees. Dans cet exemple, les donnees 
A\ et A2 sont pergues en deux positions reliees par des donnees proprioceptives II (partie 
a). L’utilisation d’un modele metrique permet de fusionner ces informations dans un cadre de 
reference commun ou des objets sont represents, ici deux murs orthogonaux (partie b, haut). 
Sans modele metrique, ces donnees peuvent seulement etre memorisees de maniere sepa- 
ree (partie b, bas). Dans le cas de /’utilisation d’un modele metrique, les donnees peuvent 
ensuite etre utilisees pour estimer la perception A3 pour une nouvelle position reliee a la pre- 
cedente par les donnees proprioceptives 12. Ici, le modele permet d’inferer que les donnees 
A3 correspondent a un coin de murs (partie c, haut). Sans un tel modele, seules les positions 
visitees peuvent etre reconnues, et aucune inference ne peut etre faite pour les positions non 
visitees (partie c, bas). 


caracteriser I’apparence de I’environnement depuis un lieu. Cette caracterisation ne permet pas 
d’identifier individuellement des objets distants du robot qui pourraient servir de points de reperes, 
les amers. L’utilisation d’un modele metrique permet I’identification de tels points (cf. figure 3.1b). 
La perception de ces amers permet alors, en retour, d’obtenir des informations sur la position 
du robot. Cette utilisation des perceptions offre I’avantage supplemental de permettre au robot 
d’inferer les valeurs que mesureront les capteurs dans des positions differentes, mais voisines de 
sa position courante (cf. figure 3.2). Par exemple, si un robot pergoit un mur a cinq metres devant 
lui, il peut predire qu’en avangant d’un metre, il percevra le mur a quatre metres. Un autre moyen 
de presenter cette propriety est de dire que les perceptions seules permettent d’estimer la position 
metrique relative de deux lieux (cf. figure 3.3). Ainsi, si un robot pergoit deux fois un mur devant 
lui, d’abord a cinq metres puis a quatre metres, il pourra en deduire qu’il a avance d’un metre. 
Cette propriety permet au robot d’estimer sa position avec precision sur une part plus importante 
de son environnement et ne limite plus la localisation aux lieux deja visites. Cet avantage est une 
consequence directe de la fusion des informations proprioceptives et des perceptions au sein 
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d’une meme representation, qui permet le passage d’un type d’information a I’autre. 
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Figure 3.3- Un modele metrique des capteurs permet d’inferer la position relativeII de deux 
lieux depuis lesquelles des perceptions A\ etA2 ont ete realisees (partie a). Cette estimation 
requiert d’abord la recherche d’un objet de I’environnement commun aux deux perceptions 
(partie b, haut). L’utilisation de cet objet commun rend alors possible /’estimation de la position 
relative II des deux lieux (partie c, haut). Sans modele metrique, seule la similarite de deux 
perceptions peut etre mesuree (partie b, bas). II est alors seulement possible d’estimer si ces 
deux situations peuvent correspondre au meme lieu ou non, c’est-a-dire sill est nulle ou non 
(partie c, bas). 


Toutefois, la mise au point d’un tel modele metrique peut etre difficile. La relation qui lie la 
valeur mesuree par un capteur a la position des objets du monde reel peut etre, en effet, tres 
complexe. Dans le cas des capteurs a ultrasons, par exemple, si un mur se trouve juste dans I’axe 
du capteur, sa distance est simplement mesuree par le temps mis par I’onde sonore pour revenir 
au capteur. Mais, dans le cas ou le mur est fortement incline par rapport au capteur, I’echo peut ne 
pas revenir en direction du capteur qui ne detectera alors aucun obstacle. Un autre probleme vient 
de la texture des murs. Un mur recouvert de textile ou d’un materiau souple renverra les echos 
tres differemment d’un mur de beton. En consequence, pour une distance donnee, le capteur 
percevra des distances differentes suivant le materiau des murs. Ces deux exemples montrent 
que le modele metrique associe a un capteur ne depend pas que du capteur. II depend aussi 
fortement de proprietes locales de I’environnement qui sont difficiles ou impossibles a prendre en 
compte dans un modele du capteur seul. 
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3.3 Fusion d’informations 

En resume, les informations proprioceptives sont simples a utiliser, mais derivent au cours du 
temps, tandis que les perceptions ne derivent pas, mais souffrent des problemes de variability 
perceptuelle et d’Ambigui'te. 

La solution pour resoudre ces problemes est de fusionner ces deux types d’information. II est 
par exemple possible d’utiliser les informations proprioceptives afin de distinguer deux positions 
physiquement differentes mais similaires pour le systeme perceptif. Ainsi deux lieux, dont la po¬ 
sition relative mesuree par les donnees proprioceptives est non nulle, ne seront pas confondus. 
Cette solution est celle qui est mise en oeuvre dans la majority des systemes de navigation, car 
elle permet d’utiliser les deux sources d’informations en limitant les defauts inherents a chacune. 
Ainsi la degradation progressive des informations proprioceptives est compensee par la recon¬ 
naissance de positions de I’environnement grace aux perceptions. Inversement, le probleme de 
perceptual aliasing est regie par I’utilisation des donnees proprioceptives. 

Comme nous le verrons dans ce cours, il existe de nombreuses methodes pour utiliser conjoin- 
tement les deux sources d’informations. Ces methodes different par leur capacity a utiliser de 
maniere plus ou moins efficace les avantages des deux types d’informations. D’une maniere ge¬ 
nerate, la qualite d’un systeme de navigation depend fortement de cette capacity. 
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CHAPITRE 4. MATERIELS COURANTS EN ROBOTIQUE MOBILE 


Chapitre 4 


Materiels courants en robotique mobile 


4.1 Les bases mobiles 

Nous presentons rapidement les differents types de bases mobiles utilisees en robotique, 
en nous focalisant sur les plateformes mobiles terrestres pour le milieu interieur. Ce cours ne 
portant pas sur les methodes de commande, nous ne rentrerons pas en details dans les modeles 
cinematiques ou dynamiques associes. Nous ne parlerons pas non plus des effecteurs permettant 
au robot d’agir sur son environnement, tels que les bras articules. 


4.1.1 Holonomie 

En robotique, une plateforme est dite holonome lorsque que le nombre de degres de libertes 
controlables est egal au nombre total de degres de liberte. 

Pour un robot se deplagant sur un plan, il y a 3 degres de liberte (deux translations et une ro¬ 
tation). A partir d’une position donnee, une plateforme holonome devra done pouvoir se deplacer 
en avant, sur le cote et tourner sur elle-meme. Cette capacite permet de controler tres simplement 
le robot car tous les deplacements imaginables sont realisables, ce qui simplifie le probleme de 
planification de trajectoire. 

De nombreuses plateformes simples ne sont pas holonomes. C’est par exemple le cas des 
voitures, ce qui oblige a manoeuvrer pour realiser certaines trajectoires. Par exemple, il est ne- 
cessaire de faire un creneau pour realiser un deplacement lateral. Ces contraintes devront done 
etre prises en compte lors de la planification de trajectoires. Nous allons cependant voir quelques 
mecanismes permettant d’obtenir des plateformes holonomes, ou s’en approchant. 


4.1.2 Les plates-formes differentielles 

Une des configurations les plus utilisees pour les robots mobiles d’interieur est la configuration 
differentielle qui comporte deux roues commandees independamment. Une ou plusieurs roues 
folles sont ajoutees a I’avant ou a I’arriere du robot pour assurer sa stability (Figure 4.1). Cette 
plate-forme est tres simple a commander, puisqu’il suffit de specifier les vitesses des deux roues, 
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et permet de plus au robot de tourner sur place. Cette possibility permet de traiter dans certains 
cas le robot comme un robot holonome, ce qui va simplifier la planification de deplacement et la 
commande du robot. 



Figure 4.1 - Exemple de plate-forme differentielle. Pioneer 2 DX de la societe MobileRobots. 
Urban Robot de la societe iRobot. 


Lestimation du deplacement par odometrie est egalement tres simple a partir de la mesure 
des vitesses de rotation des deux roues a>i et 002 - Les vitesses de translation v et de rotation co 
sont en effet donnees par: 

coir + K>2 r 
2 

COjr — (£> 2 ^ 

21 

Ce type de plate-forme peut egalement etre utilise avec des chenilles ce qui fournit une capa¬ 
city de franchissement de petits obstacles interessante (Figure 4.1). Ces plates-formes peuvent 
ainsi etre utilisees en exterieur ou dans des decombres. L’utilisation de chenilles conduit cepen- 
dant a une odometrie tres bruitee a cause du contact mal defini entre les chenilles et le sol qui 
glissent beaucoup, notamment lors des rotations. Lestimation de la direction par I’odometrie sur 
ce type de plates-formes est done en general rapidement inutilisable. 


v 

0) 


4.1.3 Les plates-formes omnidirectionnelles 

Les plates-formes omnidirectionnelles permettent de decoupler de maniere plus nette le controle 
de la rotation et de la translation d’un robot et sont done quasiment holonomes. 

II existe differents types de plateformes omnidirectionnelles. Le premier utilise trois ou quatre 
roues qui tournent a la meme vitesse pour fournir une translation et un mecanisme qui permet 
d’orienter simultanement ces roues dans la direction du deplacement souhaitee (Figure 4.2). 

Le corps du robot lui-meme n’effectue pas de rotation mais uniquement des translations. Ce 
systeme permet un controle tres simple et relativement rapide car les changement de direction 
ne concernent que les roues et peuvent done se faire tres vite. Par contre ces plates-formes sont 
relativement limitees en capacity de franchissement et requierent un sol tres plan. 

Une deuxieme categorie de plateformes utilise des roues dites "suedoises", qui n’offrent pas 
de resistance au deplacement lateral (Figure 4.3). La plateforme comporte trois roues dont les 
axes sont fixes. Les deplacements dans toutes les directions et en rotation sont obtenus en faisant 
varier individuellement les vitesses des roues. La plateforme tourne sur place lorsque les trois 
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Figure 4.2 - Exemple de plate-forme omnidirectionnelle a roues orientables. 






Figure 4.3 - Exemple de plate-forme omnidirectionnelle a roues suedoises. 


roues tournent dans le meme sens, a la meme vitesse. Lorsque une roue est fixe, et que les deux 
autres tournent en sens oppose, la plateforme avance en direction de la roue fixe. Differentes 
combinaisons de vitesses permettent d’obtenir des deplacements quelconques. 


4.1.4 Les plates-formes non holonomes 

Des plates-formes non holonomes, telles que les voitures, sont egalement utilisees en ro- 
botique mobile (Figure 4.4). C’est plus particulierement le cas dans le domaine des vehicules 
intelligents. Ces plates-formes sont toutefois plus difficile a commander car elle ne peuvent pas 
tourner sur place et doivent manceuvrer, ce qui peut etre difficile dans des environnements en- 
combres. La commande de ces plates-formes pour realiser un deplacement particulier est un 
probleme a part entiere que nous n’aborderons pas dans ce cours. Par contre, il est possible 
de prendre en compte ces contraintes de maniere relativement simple dans la planification (voir 
chapitre III). 
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Figure 4.4 - Exemple de plate-forme non holonome de type Ackerman. 


4.1.5 Les plates-formes a pattes 



Figure 4.5 - Exemples de robots a pattes. Hexapode de AAI Canada, Aibo de Sony, Nao de 
Aldebarran Robotics. 

Des plates-formes a deux, quatre ou six pattes peuvent egalement etre utilisee. Elle ont I’avan- 
tage theorique de pouvoir se deplacer sur des terrains assez complexes, meme si en pratique la 
plupart de ces plates-formes ne fonctionnent que sur des sols plans. 

Les plates-formes a six pattes sont relativement pratiques car le robot peut etre en equilibre 
permanent sur au moins 3 pattes, ce qui facilite le controle. Les plates-formes a deux ou quatre 
pattes sont plus complexes a commander et le simple controle de la stability et d’une allure de 
marche correcte reste aujourd’hui difficile, ce qui les rend en general relativement lentes. Lodo- 
metrie de ce type de plates-formes est de plus generalement d’assez faible qualite. Ces differents 
facteurs font que ces plates-formes sont rarement utilisees quand I’application visee a un besoin 
precis de positionnement et de navigation. De telles plates-formes commencent cependant a 
apparaTtre a relativement grande echelle (par exemple le robot Nao de Aldebarran Robotics). 
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4.2 Les capteurs 

Nous presentons dans cette section les capteurs les plus couramment utilises en robotique 
mobile pour les besoins de la navigation ainsi que des modeles probabilistes associes qui seront 
utilises dans plusieurs methodes de navigation. 

4.2.1 Les capteurs proprioceptifs 

Les capteurs proprioceptifs permettent une mesure du deplacement du robot. Ce sont les 
capteurs que Ton peut utiliser le plus directement pour la localisation, mais ils souffrent d’une 
derive au cours du temps qui ne permet pas en general de les utiliser seuls. 


Odometrie 


Lodometrie permet d’estimer le deplacement de la plateforme a partir de la mesure de rotation 
des roues (ou du deplacement des pattes). La mesure de rotation est en general effectuee par 
un codeur optique dispose sur I’axe de la roue, ou sur le systeme de transmission (par exemple 
sur la sortie de la boite de vitesse pour une voiture). Le probleme majeur de cette mesure est 
que I’estimation du deplacement fournie depend tres fortement de la qualite du contact entre la 
roue (ou la patte) et le sol. Elle peut etre relativement correcte pour une plate-forme a deux roues 
motrices sur un sol plan de qualite uniforme, mais est en general quasiment inutilisable seule pour 
un robot a chenille par exemple. Pour limiter ce probleme, il peut etre interessant de positionner 
le codeur optique sur une roue non motrice qui glissera moins. Notons cependant que I’erreur 
de ces methodes se retrouve en general principalement sur I’estimation de la direction du robot, 
tandis que la mesure de la distance parcourue est souvent de meilleure qualite. 

Modele probabiliste 

La majority des modeles de localisation et de cartographie presentes dans ce cours (voir 
chapitre III) vont faire appel a un modele probabiliste de cette mesure. II existe deux types de mo¬ 
deles : les modeles directs (donnant la probability de la mesure en fonction du deplacement reel) 
et les modeles inverses (donnant la probability du deplacement reel en fonction de la mesure). 
Dans le cas de I’odometrie, la plupart des methodes utilisent un modele inverse afin d’interpreter 
les mesures realisees. 

II existe divers types de modeles, mais les plus simples et les plus utilises sont des modeles 
supposant que les parametres du mouvement (direction 0 et longueur d du deplacement, change- 
ment de direction § du robot, cf Figure 4.6, gauche) sont statistiquement independants et soumis 
a un bruit Gaussien : 



ou d, 0,(]) sont les valeurs reelles et d a , 0„, <|) 0 les valeurs observees. 
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♦ 

Figure 4.6 - Modele probabiliste de I’odometrie. Parametres du deplacement a gauche. 
Exemple de densite de probabilite apres un deplacement rectiligne a droite. 



En general, les ecarts types de ces differentes gaussiennes (c^ce,^) dependent de la 
valeur de la mesure : I’erreur sur la longueur du deplacement pourra par exemple etre proportion- 
nelle a cette longueur: 

o d = yxd 

II est possible d’utiliser des modeles beaucoup plus fins de I’odometrie reposant sur le pro¬ 
cessus physique utilise pour la mesure du deplacement. II est par exemple possible de faire une 
hypothese de bruit gaussien sur le capteur realisant la mesure de rotation de chaque roue puis, 
par calcul, d’en deduire I’erreur sur I’estimation du deplacement du robot. Cependant, une telle 
precision n’est souvent pas necessaire dans de nombreux algorithmes. 

Comme nous le verrons au chapitre sur la localisation, ces modeles probabilistes peuvent etre 
utilises pour generer des positions possibles du robot selon la distribution de probabilite deduite 
de la mesure de I’odometrie. 

Les systemes radar doppler et optiques 

Au lieu de mesurer le deplacement par des mesures sur les roues, il est possible d’utiliser 
un radar pointe vers le sol qui permet de mesurer la vitesse du vehicule par effet Doppler. II 
existe aussi des systemes optiques, bases sur le meme principe que les souris d’ordinateur, 
qui mesurent le deplacement du vehicule en analysant le mouvement relatif du sol (figure 4.7). 
Ces systemes presentent I’avantage d’etre plus precis que la mesure passant par les roues, 
notamment car ils sont independants des derapages possible de ces roues. II sont cependant en 
general relativement chers et encombrants et sont assez rares sur les petites plates-formes. 
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CORREVIT L-CE-Sensor 

A ompact sensor with integrated optics and (E)lectronics for the non-contact and non-slip measurment of ength (distance) and 
speed on roads, off-road and on rails. 



Working Range 

1-400 kmfh 

Frequency Output 

350 putees/m down to 35 putee&km 

Analog Output 

12.5.25.50.100 mV/km/h 

Linearity 

0.2% 

Power Supply 

9 -14.5 V/DC, 25W 

Operation Temp 

-25 * to + 50 *C 

Working Range 
of the Sensor 

300mm ± 60 

Dimensions 

approx 150 x 60 x 85 mm 

Weigh 

approx 1 3 kg 

Cable Length 

5m 


Figure 4.7 - Exemple d’odometre optique Correvit L-CE de CORRSYS- DARTON Sensor- 
systeme GmbH. 


Les systemes inertiels 

La mesure de deplacement potentiellement la plus fiable provient de la mesure des accele¬ 
rations de la plate-forme par des capteurs inertiels. Cette mesure est potentiellement fiable car 
elle ne depend pas de la nature locale de I’environnement, cependant les capteurs inertiels sont 
tous entaches de bruit de mesure qui produit une derive de I’estimation de la position au cours du 
temps. 

La qualite des mesures inertielles depend tres fortement du type de capteurs utilisees. His- 
toriquement, les premiers capteurs ont ete realises a base de systemes mecaniques et peuvent 
fournir des mesures extremement precise, au prix d’un cout et d’une masse tres eleves. Ces der- 
nieres annees ont vu apparaTtre de nouvelles technologies de capteurs, notamment bases sur 
les techniques de micro-electronique, qui ont permis la realisation de capteurs inertiels “bas cout” 
et I’apparition de ces capteurs dans des produits grand public. La precision de ces capteurs est 
toutefois de quelques ordres de grandeur plus faible, ce qui rend leur utilisation isolee quasiment 
impossible. Ces capteurs fournissent toutefois un tres bon complement a I’odometrie, notamment 
pour I’estimation de la direction. 

Lacceleration en translation de la plate-forme est mesuree par des accelerometres. On dis¬ 
pose en general deux accelerometres pour prendre des mesures dans deux directions perpendi- 
culaires du plan de deplacement du robot. Un troisieme peut etre dispose verticalement afin de 
mesurer I’acceleration en trois dimensions. 

Lacceleration angulaire est mesuree par des gyrometres. On dispose en general un gyro- 
metre selon I’axe vertical, qui permet ainsi de mesurer Tangle de lacet du robot. Deux autres 
gyrometres peuvent etre positionnes selon deux axes du plan de deplacement afin d’estimer la 
direction en trois dimensions. 

II est egalement possible de mesurer la rotation du robot par rapport a un axe de reference en 
utilisant un gyroscope. Cette mesure s’effectue en general par rapport a un axe de reference mis 
en rotation et isole mecaniquement le plus possible du robot, ce qui rend sa direction indepen- 
dante de la direction du robot. Cette mesure peut etre moins bruitee que I’integration du signal 
deceleration mais depend tres fortement de la qualite de la realisation mecanique du systeme, 
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qui depend tres directement du prix du gyroscope. 

Enfin, les magnetometres permettent, par la mesure du champ magnetique terrestre, de de- 
duire la direction du nord. Ces capteurs peuvent utiliser differentes technologies et ont I’avantage 
de fournir une direction de reference stable au cours du temps (au contraire des gyroscopes qui 
derivent). Ces capteurs sont toutefois tres delicats a utiliser en interieur car ils sont tres sensibles 
aux masses metalliques presentes dans les batiments et leur structure. En pratique, on les utilise 
done principalement en exterieur en apportant le plus grand soin a leur positionnement sur le 
robot pour eviter les influences des composants du robot, notamment les moteurs electriques. 



Figure 4.8- Centrale intertielle Crista de Cloud Cap Technology. 

Lensemble de ces elements (accelerometres, gyrometres, magnetometres) peut etre reuni 
pour former une centrale inertielle qui permet d’estimer completement les six degres de libertes 
de la position dans un espace a 3 dimensions. Les centrales inertielles “bas cout” sont cependant 
aujourd’hui de qualite insuffisante pour une utilisation isolee, tandis que les centrales de qualite 
correcte restent tres cheres. Ce domaine est cependant en evolution rapide avec I’arrivee de 
nouvelles technologies et I’apparition de centrales “bas cout” de bonne qualite devrait se faire 
dans les prochaines annees. 

Lutilisation des donnees fournies par ce type de senseurs passe aussi en general par un mo- 
dele probabiliste, qui peut etre du type de celui presente pour I’odometrie. Cependant, la gestion 
du bruit interne de ces capteurs demande en general des modeles beaucoup plus precis, qui 
estiment explicitement la derive des capteurs afin de la corriger. Ceci permet de beneficier de 
modeles plus precis en sortie egalement. 


4.2.2 Les telemetres 

II existe differents types de telemetres, qui permettent de mesurer la distance aux elements 
de I’environnement, utilisant divers principes physiques. 


Telemetres a ultrason 

Les telemetres a ultrason sont historiquement les premiers a avoir ete utilises. II utilisent la 
mesure du temps de vol d’une onde sonore reflechie par les obstacles pour estimer la distance 
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Figure 4.9- Principe du telemetre a ultrasons et exemple de telemetre reel. 


(Figure 4.9). Ces telemetres sont tres simple et peu cher, et sont done tres repandus, mais pos¬ 
sedent de nombreux inconvenients. 

En premier lieu, deux telemetres voisins ne peuvent etre utilises simultanement, car il est 
impossible de savoir par lequel des deux telemetres une onde reflechie a ete emise (phenomene 
de “crosstalk”). Un robot possedant plusieurs telemetres doit done les activer I’un apres I’autre, 
ce qui entraine un taux de rafraTchissement global des mesures relativement faible. 

Ces telemetres possedent une “zone aveugle”, de quelques centimetres, en dessous de la- 
quelle ils ne peuvent detecter les obstacles. Cette zone est due a une temporisation entre remis¬ 
sion de I’onde sonore et le debut de la detection de I’onde reflechie qui est necessaire pour ne 
pas perturber cette mesure. 

De plus, I’onde reflechie est tres sensible aux conditions environnementales locales. Ainsi, si 
Tangle entre I’obstacle et la direction de I’onde sonore est trop faible, il n’y aura pas de retour de 
I’onde sonore et I’obstacle ne sera pas pergu. Londe de retour depend egalement de la texture 
de I’obstacle. Un mur couvert de moquette pourra par exemple ne pas etre detecte. 

Les telemetres ultrason detectent les obstacles se situant dans un cone relativement large 
(d’angle au sommet d’environ 30 degres). Cette caracteristique peut etre a la fois un avantage 
et un inconvenient. C’est un inconvenient car un obstacle detecte n’est pas localise en angle 
a I’interieur du cone de detection, et on obtient done une mesure de la position relativement 
imprecise. C’est par contre un avantage car des elements relativement fins (les pieds de table ou 
de chaise par exemple) sont detectes dans ce cone, alors qu’il pourraient ne pas etre detectes 
par des telemetres ayant un angle d’ouverture tres fin. 

Telemetres a infrarouge 

Les telemetres infrarouges possedent I’avantage d’avoir un cone de detection beaucoup plus 
restreint. II utilisent une lumiere infrarouge au lieu d’une onde sonore pour la detection et peuvent 
etre bases sur differentes techniques qui permettent de recueillir plus ou moins d’information. 

II est possible de mesurer simplement le retour ou le non-retour d’une impulsion codee, ce 
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Figure 4.10 - Principe du telemetre infrarouge a triangulation et exemple de telemetre reel 
(Sharp). 


qui permet de detecter la presence ou I’absence d’un obstacle dans une certaine portion de 
I’espace. II est egalement possible de realiser une triangulation sur le faisceau de retour de I’onde 
lumineuse, ce qui permet d’avoir une mesure de la distance de I’obstacle (figure 4.10). 

Les inconvenients de ces telemetres sont lies a leur portee, en general relativement restreinte, 
et a leur sensibilite aux sources de lumieres qui contiennent un fort rayonnement infrarouge. Un 
projecteur du type de ceux utilises pour la television pointe sur le robot, par exemple, sature en 
general completement le recepteur et empeche toute detection d’obstacle. Ms sont egalement 
tres sensibles a la couleur et a la nature de la surface de I’obstacle (par exemple, ils detectent 
difficilement les vitres et les obstacles noir mats). 


Telemetres laser 

Les telemetres les plus utilises a I’heure actuelle pour des applications de cartographie et de 
localisation sont les telemetres laser a balayage. Ils utilisent un faisceau laser mis en rotation afin 
de balayer un plan, en general horizontal, et qui permet de mesurer la distance des objets qui 
coupent ce plan (Figure 4.11,4.1 1). Cette mesure peut etre realisee selon differentes techniques 
soit en mesurant le temps de vol d’une impulsion laser, soit par triangulation. 

Les telemetres courants ont une bonne resolution angulaire car ils permettent d’obtenir une 
mesure de distance tout les demi degres, sur une zone de 180 ou 360 degres selon les modeles. 
La mesure est de plus relativement precise (avec un bruit de I’ordre de quelques centimetres) a 
une distance relativement grande (plusieurs dizaines de metres). La frequence d’acquisition est 
en general de I’ordre de la dizaine de Hertz, voire proche de la centaine pour certains modeles. 

Ces telemetres sont tres utilises en environnement interieur car il fournissent des donnees 
abondantes et precises sur la position des objets caracteristiques de I’environnement tels que 
les murs. Ils possedent toutefois un certain nombre d’inconvenients. En premier lieu, leur zone 
de perception est restreinte a un plan et ne permet done pas de detecter les obstacles situes 
hors de ce plan (un petit objet pose au sol par exemple). Ils ne peuvent pas non plus detecter les 
objets ne reflechissant pas correctement la lumiere du laser (en premier lieu les vitres, mais aussi 
certains objets tres reflechissants, tels que les objets chromes). Pour limiter ces inconvenients, 
il est possible de les utiliser en conjonction avec des capteurs a ultrason qui ont un cone de 
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Telemetre 


Mesure obtenue 


Figure 4.11 - Illustration du principe de fonctionnement d’un telemetre Laser et un exemple 
de Telemetre Laser a balayage, fournissant 720 mesure reparties sur 360 degres, a 5 Hz 
(marque Ibeo). 




detection plus large et qui peuvent detecter les vitres. 

Enfin, la plupart des algorithmes de cartographie et de localisation existants supposent que 
le plan de mesure du telemetre laser reste horizontal et a hauteur constante, ce qui n’est plus 
vrai en cas de sol irregulier ou, dans la majorite des cas, en exterieur. II est alors necessaire de 
passer a une localisation et une cartographie en 3D. 



Figure 4.12 - Un exemple de telemetre laser a balayage selon 2 axes (a gauche) et de 
camera permettant d’obtenir une image de profondeur de 320x240 pixels (a droite). 


II existe des telemetres laser balayant I’espace selon deux axes 4.12. Ils permettent ainsi 
d’obtenir une image de distance selon un angle solide de I’ordre de quelques dizaines de degres 
dans les deux dimensions. Ces telemetres restent toutefois cher et fragile du fait de la mecanique 
necessaire au balayage. De plus, la frequence d’acquisition est relativement faible (de I’ordre de 
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quelques Hertz), ce qui pose probleme lorsque le robot est en mouvement. Ces telemetres sont 
done plutot destines a des applications relativement statiques comme la creation de modeles 3D. 

II existe egalement des systemes sans balayage permettant d’obtenir une image de profon- 
deur de la meme maniere qu’une camera couleur standard. Plusieurs technologies sont utilisees, 
soit par mesure de temps de vol d’une impulsion laser ou infrarouge, soit par triangulation a partir 
de projecteurs infrarouges. Ces capteurs sont recents, mais sont tres interessants pour la robo- 
tique mobile car ils permettent d’obtenir une information dense a une frequence assez elevee 
(image de profondeur de 320x240 a 30 Hz pour la camera Kinect par exemple, figure 4.12). Ces 
informations peuvent etre couplees a une image couleur, on parle alors de camera RGBD (D pour 
Depth). II reste cependant certaines limitations, notamment pour I’emploi en exterieur ou I’infor- 
mation de profondeur peut etre perdue a cause de la lumiere du soleil qui masque la lumiere 
infrarouge. 



Figure 4.13 - Un exemple de telemetre laser a balayage a 64 nappes congu par Velodyne. 

Enfin, principalement pour les vehicules intelligents, il existe un compromis qui consiste a 
utiliser plusieurs nappes laser avec differentes inclinaisons afin d’avoir des modeles assez precis 
de I’environnement sur 360 degres (figure 4.13). Ces capteurs restent assez lourds et chers, mais 
permettent de realiser quasiment I’ensemble des taches necessaires pour un vehicule comme la 
localisation, la cartographie et la detection de pietons ou de vehicules. 

Modele probabiliste 

Les modeles probabilistes associes aux telemetres permettent de donner la probability de la 
mesure en fonction de la distance reelle de I’obstacle. Pour les capteurs realisant plusieurs me- 
sures, les probability sont en general estimees pour chacune des mesures individuelles prises 
depuis une position, puis agglomerees par produit en supposant les mesures independantes : 

M 

P{Scan\Obstacles ) = ]^[P (me sure ^Obstacles) 

i= 1 
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Perception de l'obstacle Perception d’un obstacle imprtvu 

(a) Sonar data, plots for two different ranges 


Retour de la valeur maxi male 



(b) Laser data, plots for two different ranges 






Figure 4.14 - Modele probabiliste de telemetre par composition d’evenements elementaires 
et exemple d’application sur des donnees reelles de sonars ou de telemetres laser (tire de 
[135]). 


Pour estimer la probability d’une mesure individuelle, il est possible d’utiliser une simple loi 
gaussienne autour de la distance reelle comme modele probabiliste, mais les modeles sont en 
general un peu plus evolues et utilisent une combinaison de lois qui modelisent plusieurs pheno- 
menes qui peuvent etre responsables de la mesure (Figure 4.14) : 

- la mesure effective de l’obstacle vise, modelise par une gaussienne en general 

- la perception d’un obstacle imprevu, par exemple une personne ou un objet dynamique non 
present dans la representation du monde, modelise par une loi decroissante telle qu’une 
exponentielle 

- la non detection d’un echo, qui donne une mesure a la distance maximale du telemetre, 
modelise par un pic. 

Les parametres de cette combinaison de lois peuvent etre regies manuellement ou estimes 
a partir d’un ensemble de mesures, par exemple en utilisant un algorithme de maximisation de 
I’esperance. Ces modeles peuvent etre adaptes a tout les types de telemetres (figure 4.14). 
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4.2. LES CAPTEURS 


4.2.3 Les cameras 

Lutilisation d’une camera pour percevoir I’environnement est une methode attractive car elle 
semble proche des methodes utilisees par les humains et fournit un grande quantite d’informa- 
tion sur I’environnement. Le traitement des donnees volumineuses et complexes fournies par 
ces capteurs est cependant souvent difficile, mais c’est une voie de recherche tres exploree et 
prometteuse pour la robotique. 


Cameras simples 

Une camera standard peut etre utilisee de differentes manieres pour la navigation d’un robot 
mobile. Elle peut etre utilisee pour detecter des amers visuels (des points particuliers qui servent 
de repere, tels que des portes ou des affiches) a partir desquels il sera possible de calculer la 
position du robot. Si ces amers sont simplement ponctuels, ou de petite taille, il sera en general 
simplement possible d’estimer leur direction. Dans le cas ou les amers sont des objets connus 
en 2 ou 3 dimensions, il sera en general possible d’estimer completement la position du robot par 
rapport a la leur. Elle peut egalement etre utilisee pour detecter des “guides” de navigation pour 
le robot, tels que des routes ou des couloirs. 



Figure 4.15- Illustration du principe de base du flot optique. 

II est egalement possible d’utiliser globalement une image pour caracteriser une position ou 
un point de vue dans I’environnement. II faudra alors comparer cette image aux nouvelles images 
acquises par le robot pour savoir si le robot est revenu a cette position. Cette comparaison peut 
faire appel a differentes techniques, notamment celles utilisees dans le domaine de I’indexation 
d’image. 

Lorsque le robot est en mouvement, il est egalement possible de tirer parti du flot optique 
(le mouvement apparent des objets dans I’image, voir figure 4.15), afin d’avoir une estimation de 
la distance des objets. En effet, les objets les plus proches ont un deplacement apparent plus 
important que les objets lointains. Cette methode permet notamment de realiser un evitement 
d’obstacles ou de realiser une reconstruction tridimensionnelle de I’environnement (par des tech¬ 
niques connues sous le nom de structure from motion, voir section 4.2.3). 
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Cameras stereoscopiques 



Figure 4.16 - Exemple de donnees fournies par des cameras stereoscopiques. 

Lorsque Ton dispose de deux cameras observant la meme partie de I’environnement a partir 
de deux points de vue differents, il est possible d’estimer la distance des objets et d’avoir ainsi 
une image de profondeur (Figure 4.16), qui peut etre utilisee pour I’evitement d’obstacles ou la 
cartographie. Cette methode suppose toutefois un minimum d’elements saillants dans I’environ- 
nement (ou un minimum de texture) et peut etre limitee, par exemple dans un environnement dont 
les murs sont peint de couleurs uniformes. La qualite de la reconstruction risque egalement de 
dependre fortement des conditions de luminosity. La resolution et I’ecartement des deux cameras 
impose egalement les profondeurs minimum et maximum qui peuvent etre pergues, ce qui peut 
etre limitatif pour la vitesse de deplacement du robot. 

Des techniques similaires peuvent egalement etre utilisees pour estimer la profondeur a partir 
d’une camera en mouvement (methodes de structure from motion, voir par exemple [67]), la 
difficulty etant alors d’estimer a la fois la profondeur et les positions relatives de la camera lors de 
la prise des deux images. 

Cameras panoramiques 

Les cameras panoramiques (catadioptriques) sont constitutes d’une camera standard poin- 
tant vers un miroir de revolution (par exemple un simple cone, ou un profil plus complexe qui 
peut s’adapter a la resolution exacte que Ton veut obtenir sur le panorama) (figure 4.17). L’image 
recueillie permet d’avoir une vision de I’environnement sur 360 degres autour de la camera. Le 
secteur angulaire vertical observe depend de la forme du miroir et peut etre adapte aux besoins 
de chaque application (Figure 4.17). 

Ce type de camera est tres pratique pour la navigation car une image prise par une camera 
panoramique orientee verticalement permet de caracteriser une position, independamment de la 
direction du robot. En effet, pour une position donnee et pour deux orientations differentes, la 
meme image sera formee par la camera, a une rotation autour du centre pres, tandis que pour 
une camera standard, orientee horizontalement, la scene serait differente. 

Ces cameras sont done tres pratiques lorsque Ton caracterise une position de maniere glo- 
bale, mais peuvent aussi etre utilisees pour detecter des amers ou pour estimer le flux optique. 
Dans ce cas, toutefois, comme la geometrie de I’image formee est relativement complexe et 
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Point de contraction 


Figure 4.17- Principe des cameras panoramiques catadioptriques, exemple d’image obte- 
nue et illustration du flux optique. 


comme la resolution obtenue varie enormement selon la direction observee, les algorithmes 
doivent etre adaptes, ce qui pose un certain nombre de problemes. 

Concernant le flux optique, cependant, les cameras panoramiques possedent I’avantage de 
contenir toujours le point d’expansion et le point de contraction dans I’image, ce qui rend I’estima- 
tion du mouvement beaucoup plus aisee (figure 4.17). 


4.2.4 Autres capteurs 

Les capteurs tactiles 

Les robots peuvent etre equipes de capteurs tactiles, qui sont le plus souvent utilises pour 
des arrets d’urgence lorsqu’il rencontre un obstacle qui n’avait pas ete detecte par le reste du 
systeme de perception. 

Ces capteurs peuvent etre de simples contacteurs repartis sur le pourtour du robot. II ne 
detectent alors le contact qu’au dernier moment. II est egalement possible d’utiliser des petites 
tiges arquees autour du robot pour servir d’intermediaire a ces contacteurs, ce qui permet une 
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detection un peu plus precoce et donne ainsi plus de marge pour arreter le robot. 

Les balises 

Dans certaines applications, il est egalement possible d’utiliser des balises dont on connait la 
position, et qui pourront etre facilement detectees par le robot, afin de faciliter sa localisation. 

Des techniques tres diverses peuvent etre utilisees pour ces balises. On peut par exemple 
utiliser un signal radio, emis de maniere omnidirectionnel par la balise. Le robot sera alors equipe 
d’une antenne directionnelle qui lui permettra de detecter la direction des differentes balises, afin 
de deduire sa position par triangulation. 

On peut egalement utiliser des codes couleurs ou des codes barres qui pourront etre detectes 
par une camera. 

Le GPS 

Les besoins de localisation etant omnipresents dans de tres nombreux secteurs de la vie 
actuelle, I’idee d’avoir un systeme de localisation le plus universel possible a donne lieu a I’ap- 
parition du Global Positionning System (GPS). C’est un systeme de balises dont on a place les 
balises sur des satellites en orbite terrestre et qui est par consequent accessible de quasiment 
partout a la surface du globe. Ce systeme permet done d’avoir une mesure de sa position dans 
un repere global couvrant la terre avec une precision variant de quelques dizaines de metres a 
quelques centimetres suivant les equipements. 

Ce systeme est cependant loin de resoudre tous les problemes de localisation des robots mo¬ 
biles. II fonctionne en effet difficilement dans des environnements urbains, et n’est pas utilisable 
a I’interieur des batiments. Sa precision est de plus souvent trop faible pour qu’un robot terrestre 
puissent utiliser ces informations seules. En pratique, il est souvent couple a un systeme inertiel 
qui permet de palier aux pertes du signal GPS et il ne remplace de toute fagon pas les capteurs 
du robot qui lui permettent de percevoir son environnement immediat, qui constitue la source 
d’information principale pour la navigation a court terme (par exemple I’evitement d’obstacles, par 
opposition a la navigation a long terme qui consiste a rejoindre un but distant). 


4.3 Pour aller plus loin 

Sensors for Mobile Robots : Theory and Application, Everett 
Une version en ligne est disponible : 

http://www-personal.engin.umich.edu/~ johannb/my_book.htm 
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Deuxieme partie 
Navigation reactive 
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Dans cette partie, nous presentons differentes strategies de navigation reactive. Ces stra¬ 
tegies peuvent etre utilisees dans des architectures de controle purement reactives, mais aussi 
comme modules de bas-niveau dans une architecture hybride. Par definition, les strategies de 
navigation reactives n’utilisent que les valeurs courantes des capteurs (ou des valeurs sur une 
petite fenetre temporelle), et non des donnees provenant d’un modele interne, pour decider de 
Taction a effectuer. 
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Chapitre 5 


Navigation vers un but 


Nous commengons ici par des methodes de navigation correspondant aux deux premieres 
categories de strategies de navigation definies dans le chapitre 2, c’est a dire I’approche d’un but 
defini par un objet ou une configuration d’amers. 


5.1 Vehicules de Braitenberg 


Dans son livre “Vehicles : Experiments in Synthetic Psychology”, Valentino Braitenberg [19] 
decrit une serie d’experiences dans lesquelles des robots extremement simples peuvent montrer 
des comportements complexes, qu’un observateur humain associe en general a differents types 
d’emotions telles que la peur ou I’agression. Nous nous interessons ici simplement a la structure 
de ces robots, qui permet de realiser simplement des comportements pour rejoindre un but visible. 
Cette structure est devenue I’archetype des methodes reactives simples. 




Figure 5.1 - Dans les vehicules de Braitenberg, la vitesse de chacun des deux moteurs du 
robot depend de la valeurs de deux capteurs qui detectent la lumiere emise par le but. 

Dans le livre de Braitenberg, le but est materialise par une lumiere, visible depuis tout I’envi- 
ronnement. Le robot est simplement une plate-forme differentielle, constitute de deux roues dont 
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on commande les vitesses de rotation et munie de deux capteurs de lumiere situes de part et 
d’autre de I’avant du robot (Figure 5.1). Larchitecture interne du robot est simplement constitute 
de liens entre ces capteurs et les moteurs qui permettent de calculer la vitesse des moteurs en 
fonction des valeurs des capteurs. 

En faisant varier les parametres des connexions, il est alors possible de definir differents 
comportements du robot. Si la vitesse de chaque moteur est reliee a la valeur du capteur du cote 
oppose avec un coefficient positif, le robot se dirigera naturellement vers le but. Si, par contre, 
la vitesse de chaque moteur est reliee a la valeur du capteur du meme cote avec un coefficient 
positif, le robot fuira le but. 

Ces vehicules realisent simplement une remontee ou une descente de gradient sur I’intensite 
de la lumiere. Ils correspondent a un simple controleur proportionnel en automatique et sont done 
relativement sujets a des oscillations dans le comportement du robot. Ils supposent de plus que 
le but est visible depuis tout I’environnement, ce qui est rarement le cas en pratique. Ce modele 
est done interessant car e’est la methode la plus simple possible pour realiser un deplacement 
vers un but, mais est difficile a utiliser dans une application reelle. 


5.2 Modele de Cartwright et Collet 

Le “snapshot model” a ete congu pour expliquer comment des abeilles peuvent utiliser des 
informations visuelles pour rejoindre un point donne de I’environnement. II permet a un robot de 
rejoindre un but dont la position est definie par la configuration d’amers de I’environnement autour 
de ce but. 


Amer 


^ Amer 



Amer 


Figure 5.2 - Exemple de snapshot caracterisant la position du but. Le robot memorise un 
panorama contenant la position et la taille apparente des amers. 


Le systeme perceptif du robot doit lui permettre de detecter la direction et la taille des amers 
autour de lui. Le robot commence par memoriser le but en enregistrant la configuration des amers 
vus depuis la position de ce but (un snapshot, Figure 5.2). 
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x 



Perception courantes 
Perceptions depuis le but 


Figure 5.3 - Pour atteindre le but, chaque amer pergu est associe a un des amers memo¬ 
rises. Pour chaque appariement, on deduit un vecteur tangentiel dont la norme augmente 
avec I’ecart entre amer pergus et memorises. La somme de ces vecteurs donne la direction a 
prendre pour atteindre le but. 


Lorsque, par la suite, le robot veut rejoindre ce but, il prend une nouvelle image des amers 
et, par comparaison entre la configuration courante et la configuration memorisee au but, il peut 
deduire de maniere tres simple la direction dans laquelle se deplacer pour atteindre le but. Cette 
comparaison est basee sur un appariement entre les amers pergus et les amers memorises, 
chaque appariement permettant de calculer un vecteur dont la somme, pour tous les apparie- 
ments d’amers, donne la direction a prendre pour rejoindre le but (Figure 5.3). Le robot effectue 
alors un deplacement de longueur fixee dans cette direction puis recommence le processus tant 
que le but n’est pas atteint. 


La encore, le systeme est tres simple et realise une descente de gradient sur la configuration 
des amers afin d’atteindre le but. II ne fonctionne cependant pas sur I’ensemble de I’environ- 
nement et la qualite du comportement obtenu depend beaucoup de la configuration des amers 
qui sont utilises, un ensemble d’amers lointains et bien repartis tout autour du robot donnant les 
meilleurs resultats. La qualite de I’appariement entre les amers est egalement primordiale, en 
effet, si un amer pergu est associe au mauvais amer memorise, le vecteur de deplacement deduit 
sera faux. Le modele original supposait des amers noirs sur fond blanc, sans identite particuliere, 
pour lequel I’appariement est relativement hasardeux. II n’est done pas applicable en pratique. 
D’autres travaux ont utilise des amers colores et differentes contraintes sur I’appariement qui 
permettent une meilleur robustesse et sont done applicables a des robots reels [58]. 


La plupart des implantations de ce modeles supposent de plus que la direction du robot est 
connue afin de faciliter I’appariement. Avoir une estimation correcte de cette direction peut se 
reveler difficile en pratique. 
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5.3 Asservissement visuel 

Lasservissement visuel [30] (document disponible en ligne 1 ) est une technique d’asservisse- 
ment de la position d’un robot qui est basee directement sur I’information extraite d’une image, 
sans modelisation intermediaire de I’environnement. Developpees a I’origine pour la commande 
des robots manipulateurs, ces techniques permettent egalement la commande de robots mobiles. 



Image Courante Image But 


Figure 5.4 - Illustration du principe de /’asservissement visuel : I’erreur entre une image 
courante et une image but (ecart entre les croix rouges et vertes ici) est utilisee pour caicuier 
une commande qui permettra au robot d’atteindre la position correspondant a I’image but. 

Dans ces approches, le but a atteindre est specifie par I’image que le robot devra percevoir 
depuis cette position. Differentes mesures sont realisees sur cette image (par exemple la detec¬ 
tion de points d’interets) et la commande du robot est congue pour amener a 0 I’ecart entre la 
mesure realisee sur I’image courante et la mesure realisee sur I’image cible (figure 5.4). Les choix 
de mesures dans I’image et de la loi de commande peuvent etre tres varies, et vont conditionner 
les trajectoires obtenues par le robot, leur stability, leur robustesse aux mauvaises perceptions 
ou aux mauvaises modelisations du systeme, etc... 

Nous ne detaillerons pas ici ces approches, mais il existe plusieurs applications interessantes 
en robotique mobile [1 5, 1 23, 34]. Notons que ces modeles sont souvent etendus pour fournir une 
navigation a long terme en enchainant des taches de controle local sur des sequences d’images. 
Par exemple, [15] presente un systeme permettant de guider un robot en environnement interieur 
a partir du suivi de motifs detectes sur le plafond par une camera pointee a la verticale. En 
enchainant des asservissements sur une sequence d’images, ce systeme permet au robot de 
refaire une trajectoire qui a ete montree au prealable par un operateur. De meme, [123] et [34] 
realisent le guidage d’un vehicule en exterieur a I’aide d’une camera pointee vers I’avant. 


1. http: //mm. irisa.fr/lagadic/pdf/2002_hermes_chaumette.pdf 
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Chapitre 6 

Evitement d’obstacles 


Levitement d’obstacles est un comportement de base present dans quasiment tous les ro¬ 
bots mobiles. II est indispensable pour permettre au robot de fonctionner dans un environnement 
dynamique et pour gerer les ecarts entre le modele interne et le monde reel. 

Les methodes que nous presentons sont efficaces a condition d’avoir une perception correcte 
de I’environnement. Elies seront par exemple tres efficaces avec un telemetre laser, mais donne- 
ront des resultats plus bruites avec des sonars. Pour limiter ce probleme, il est possible d’appliquer 
ces methodes sur une representation locale (c’est-a-dire de I’environnement proche du robot et 
centree sur le robot) de I’environnement qui sera construite en fonction des donnees de quelques 
instants precedents. Cette representation intermediate permettra de filtrer une grande partie du 
bruit des donnees individuelles (en particulier pour les sonars). 

II faut egalement faire attention a ce que les capteurs detectent tous les obstacles. Par 
exemple un laser a balayage ne verra pas les objets au dessous ou au dessus de son plan 
de balayage, et pourra voir du mal a percevoir les vitres. Pour cette raison, on utilise souvent une 
nappe laser couplee a des sonars, ou un systeme de plusieurs nappes laser inclinees. 


6.1 Methode des champs de potentiel 

Dans la methode d’evitement d’obstacles par champs de potentiels, on assimile le robot a une 
particule se deplagant suivant les lignes de courant d’un potentiel cree en fonction de I’environne- 
ment pergu par le robot. Ce potentiel traduit differents objectifs tels que I’evitement d’obstacles ou 
une direction de deplacement preferee. II est calcule par sommation de differentes primitives de 
potentiels traduisant chacun de ces objectifs (Figure 6.1). Ces differents potentiels peuvent avoir 
une etendue spatiale limitee ou non (par exemple, n’avoir une influence que pres des obstacles) 
et leur intensity peut dependre ou non de la distance. 

Le gradient de ce potentiel donne, en chaque point de I’espace, la direction de deplacement 
du robot (Figure 6.1). Comme c’est ce gradient, et non la valeur absolue du potentiel, qui nous 
interesse, il est possible de calculer directement en chaque point sa valeur par une simple somme 
vectorielle en ajoutant les valeurs issues des differents potentiels primitifs. Ainsi, pour un robot 
se deplagant en ligne droite en espace ouvert et evitant les obstacles qu’il peut rencontrer, nous 
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Figure 6.1 - Illustration de potentiels primitifs dont la combinaison guide les deplacements 
du robot. Le robot se deplacera selon les lignes de courant. 
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Figure 6.2 - Illustration de la combinaison de differents potentiels primitifs. 


obtenons par exemple les lignes de courant illustrees figure 6.2. 

De plus, dans la pratique, pour I’evitement d’obstacles, le potentiel est en general calcule dans 
I’espace relatif au robot et ne sert qu’a decider de la vitesse et de la direction courante. II n’est 
done necessaire de I’estimer que pour la position courante du robot, en sommant simplement la 
contribution des differents elements pergus (Figure 6.3). 

Le principal inconvenient de cette methode d’evitement d’obstacles est I’existence, pour cer- 
taines configurations d’obstacles (relativement courantes) de minimum locaux du potentiel qui ne 
permettent pas de decider de la direction a prendre (Figure 6.3). Ce probleme peut etre traite de 
differentes fagons. II est par exemple possible de declencher un comportement particulier lorsque 
Ton rencontre un tel minimum (deplacement aleatoire, suivi de murs ....). II est aussi possible 
d’imposer que le potentiel calcule soit une fonction harmonique, ce qui garanti qu’il n’ait pas de 
minima, mais rend son estimation beaucoup plus lourde en calcul. 

Le principe de ces champs de potentiels est formalise sous le nom de schema moteur par R. 
Arkin [4], Pour lui, un schema moteur est une action definie sous forme de potentiel en fonction 
des perceptions du robot. Ces schemas sont utilises comme controleur de bas niveau dans une 
architecture hybride. 
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Figure 6.3 - Gauche : Illustration de la combinaison de differents potentiels primitifs dans 
I’espace relatifau robot. Droite : Exemple de minimum local dans un champ de potentiel. 

6.2 Methode Vector Field Histogram 

La methode "Vector Field Histogram" [1 7] a ete congue specifiquement pour utiliser une grille 
d’occupation locale construite a partir de capteurs a ultrasons. Cette grille est construite de ma- 
niere tres rapide par la methode "Histogrammic in motion mapping" (voir section 11.2.3) qui pro- 
duit une grille dont chaque cellule contient un nombre d’autant plus eleve qu’elle a souvent ete 
pergue comme contenant un obstacle (Figure 6.4 haut). 

Un histogramme representant I’occupation de I’environnement autour du robot est ensuite 
construit a partir de cette grille d’occupation locale. Pour cela, I’environnement est discretise en 
secteurs angulaires pour lesquels la somme des valeurs des cellules est calculee (figure 6.4 bas). 
Un seuil permettant de tolerer un certain bruit est ensuite utilise pour determiner les directions 
possibles pour le robot : toutes les directions dont la valeur est inferieure au seuil sont conside- 
rees. Le choix de la direction est finalement realise parmi les directions possibles en fonction de 
contraintes externes (par exemple la direction la plus proche de la direction du but). 

Cette methode est extremement rapide (elle fonctionne sur un PC 386 a 20MHz!) et a permis 
historiquement un deplacement reactif a des vitesses assez elevees (environ 1 m/s). Diverses 
ameliorations pour permettre le reglage de la vitesse du robot en fonction de la densite des 
obstacles ou de la largeur de I’espace angulaire libre sont possibles. 


6.3 Methode de la fenetre dynamique 

La methode de la fenetre dynamique [47] permet de selectionner une trajectoire locale du ro¬ 
bot qui va eviter les obstacles et dont les variations dans le temps vont respecter des contraintes 
telles que les capacites de freinage maximales du robot. Pour appliquer I’algorithme, les tra- 
jectoires locales sont parametrees et peuvent prendre des formes differentes en fonction des 
contraintes d’holonomie du robot par exemple. Une methode simple applicable a de nombreuses 
plateformes est d’utiliser les vitesses de translation et de rotation du robot. 

La methode de la fenetre dynamique permet done, a partir de la perception locale de I’en- 
vironnement, de selectionner un couple (v,oo) de vitesses de translation et de rotation du robot 
qui repond a differentes contraintes, dont celle d’eviter les obstacles. Un tel couple de vitesses, 
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6.3. METHODE DE LA FENETRE DYNAMIQUE 



Figure 6.4- Partie superieure : Grille d occupation locale construite par la methode "Histo- 
grammic in motion mapping". La grille est construite dans le referentiel du robot: un compteur 
est incremente pour chaque cellule appartenant au secteur angulaire dans lequel un obstacle 
a ete detecte et les valeurs sont deplacees d’une cellule a I’autre en fonction des deplace¬ 
ments du robot. Partie Inferieure: Utilisation de I’histogramme des obstacles pour determiner 
la direction de deplacement du robot. 
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CHAPITRE6. EVITEMENT D’OBSTACLES 


lorsqu’il est applique au robot, produit une trajectoire circulaire, pour laquelle la satisfaction des 
differentes contraintes peut etre evaluee. A I’issu de revaluation de toutes les contraintes pour 
tous les couples de vitesses possibles, la methode de la fenetre dynamique permet de selection- 
ner le couple le plus pertinent (qui repond le mieux aux contraintes). 

Environnement reel Perceptions du robot 

vi, col = echec 

v2,co2 =succes 


Figure 6.5- Contrainte d’evitement d’obstacles pour la methode de la fenetre dynamique. 




La premiere contrainte est la contrainte d’evitement d’obstacles. C’est une contrainte dure au 
sens ou elle est binaire (succes / echec) et doit obligatoirement etre satisfaite. Elle est evaluee 
pour chacune des trajectoires possibles a partir de la perception locale de I’environnement a 
un instant donne et de la position estimee du robot a un pas de temps fixe dans le futur pour 
la trajectoire courante. Si le robot n’a pas rencontre d’obstacles a cet horizon, la contrainte est 
respectee; dans le cas contraire, elle ne I’est pas (Figure 6.5). 


Vitesses conduisant Vitesses conduisant 

a un deplacement sur a percuter un obstacle 



co 


Figure 6.6- Fenetre de selection des vitesses tenant compte de la dynamique du robot. 


Le respect ou le non respect de cette contrainte est reporte dans un graphe des vitesses qui 
indique, pour chaque couple de vitesses possible (done chaque trajectoire), si le robot va ou ne va 
pas rencontrer un obstacle (Figure 6.6). Dans ce graphe, il est alors possible de tracer la fenetre 
des vitesses accessibles au prochain pas de temps a partir des vitesses courantes du robot et 
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6.3. METHODE DE LA FENETRE DYNAMIQUE 


des valeurs d’acceleration et deceleration maximales. C’est cette fenetre qui donne son nom a la 
methode car elle permet de prendre en compte la dynamique du robot (a travers la capacite de 
freinage et d’acceleration). II reste alors a choisir, au sein de cette fenetre, un couple de vitesses 
qui ne conduise pas a percuter un obstacle pour garantir un deplacement sur du robot. 



Direction preferentielle 

Figure 6.7 - Contrainte “souple” exprimant une preference sur la direction a prendre. 

Pour faire le choix parmi toutes les vitesses possibles au sein de cette fenetre, il est possible 
d’utiliser des contraintes “souples” supplementaires pour exprimer des preferences au sein de cet 
espace des vitesses accessibles. Ces contraintes s’expriment par une fonction de cout G(v, oo) 
qui est en general la somme de plusieurs termes. Ces termes peuvent exprimer une preference 
a priori sur les vitesses, une preference pour les trajectoires s’eloignant le plus des obstacles, ou 
une preference de direction si Ton dispose par exemple d’une estimation de la direction d’un but 
a long terme (Figure 6.7). Le couple de vitesses minimisant ce cout au sein de la fenetre est alors 
selectionne. II garantit un deplacement sans rencontrer d’obstacles et le meilleur respect possible 
des contraintes souples dans ce cadre. 

Dans la pratique, les valeurs des differentes contraintes sont evaluees en differents points du 
graphe des vitesses, le nombre de points dependant notamment de la puissance de calcul dispo- 
nible et de la complexity de revaluation de chaque contrainte. Lutilisation de la fenetre dynamique 
est tres interessante pour un robot se deplagant rapidement, ou pour un robot ayant des capaci- 
tes d’acceleration et de ralentissement limitees. Elle permet alors de produire un deplacement du 
robot sur et regulier. Pour des robots qui ont une forte capacite d’acceleration et de deceleration 
(par exemple un robot leger avec de bons moteurs electriques), on peut considerer que toutes les 
vitesses sont accessibles presque instantanement. II peut alors etre suffisant de ne considerer 
que la cinematique, et non la dynamique, ce qui se traduit par la prise en compte d’un seul point 
du graphe, et non d’une fenetre. La recherche du couple de vitesse est ainsi simplifiee. 
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CHAPITRE 7. APPRENTISSAGE PAR RENFORCEMENT 


Chapitre 7 

Apprentissage par renforcement 


Les methodes que nous avons vu jusqu’a present sont des associations entre perceptions 
et actions congues par des ingenieurs. Or il existe des techniques d’apprentissage (notamment 
I’apprentissage par renforcement) permettant de creer des associations de ce type a partir d’in- 
formations d’assez haut niveau sur la tache a realiser. 

Lapprentissage par renforcement est une methode qui permet de trouver, par un processus 
d’essais et d'erreurs, Taction optimale a effectuer pour chacune des situations que le robot va 
percevoir afin de maximiser une recompense. C’est une methode d’apprentissage orientee ob¬ 
jectify va conduire a un controleur optimal pour la tache specifiee par les recompenses. Cette 
methode est de plus non supervisee car la recompense ne donne pas Taction optimale a realiser 
mais simplement une evaluation de la qualite de Taction choisie. Elle permet enfin de resoudre les 
problemes de recompense retardee pour lesquels il faut apprendre a sacrifier une recompense a 
court terme pour obtenir une plus forte recompense a long terme et done apprendre de bonnes 
sequences d’actions qui permettront de maximiser la recompense a long terme. 

Du fait de toutes ces caracteristiques, I’apprentissage par renforcement est une methode 
particulierement adaptee a la robotique. 


7.1 Formalisation 

Le probleme de I’apprentissage par renforcement pour un agent se formalise a partir des 
elements suivants : 

- Un ensemble d’etats S correspondant a la perception que I’agent a de I’environnement, 

- Un ensemble d’actions possibles J? , 

- Une fonction de recompense R : —> R. 

Lagent va interagir avec son environnement par pas de temps discrets, en percevant I’etat 
de I’environnement s t , en choisissant une action a t en fonction de cet etat et en recevant la 
recompense r t +1 associee (Figure 7.1). 

Levolution du robot dans son environnement est regi par un Processus de Decision Markovien 
(MDP en anglais) qui decrit 1’evolution de I’etat et de la recompense en fonction des actions du 
robot. Ce MDP (7.2), qui specifie completement la tache du robot par le jeu des recompenses, se 
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Figure 7.1 - Formalisation du probleme d’apprentissage par renforcement. 


decrit simplement a I’aide de deux fonctions : 

- Une fonction de transition fP", = P(s t +i — s'lsy — s,a t — a) qui donne la probability de 
passer dans I’etat s' lorsque I’agent effectue Taction a dans I’etat s, 

- Une fonction de recompense — E(r t+ i\s t — s,a t — a,s t+ 1 = s') qui donne la recom¬ 
pense moyenne lorsque I’agent passe de I’etat s as 1 en faisant Taction a. 



Figure 7.2 - Exemple de MDP tres simple. Chaque case correspond a un etat et, pour 
chaque etat, 4 actions sont possibles qui conduisent aux cases voisines. La recompense est 
nulle partout, sauf pour les actions qui menent a la case "S", pour lesquelles la recompense 
est 1. 

Le comportement de I’agent est defini par une politique Tt: {S,^L} —> [0,1], qui guide I’agent 
de maniere probabiliste en specifiant, pour chaque etat s la probability de realiser Taction a (et 
done E a 7r(s,a) = 1). Le but de I’apprentissage par renforcement va etre de trouver la politique 
optimale 7t* maximisant la recompense a long terme 1 . 

1. L’apprentissage par renforcement n’utilise que I’etat courant pour prendre une decision, il suppose done que 
toute I’information necessaire est contenue dans cet etat. Le probleme est done considere comme etant Markovien, 
ce qui est rarement le cas en pratique en robotique. Si le probleme est non markovien, e’est a dire si pour un 
meme etat deux actions differentes sont optimales en fonction d'une variable inconnue au robot, I’apprentissage par 
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CHAPITRE 7. APPRENTISSAGE PAR RENFORCEMENT 


La recompense a long terme, que nous appellerons revenu R t , peut etre definie de differentes 
manieres en fonction de la tache consideree. Si la tache consiste a repeter des episodes qui 
durent un nombre de pas de temps fixe, le revenu pourra etre la somme des recompenses ins- 
tantanees pendant un episode. Si au contraire la tache se deroule de maniere continue, le revenu 
pourra se definir comme la somme des recompenses futures ponderees par une exponentielle 
decroissante : 


R t = £ y k R+k +1 
k=0 

ou ye [0,1] est un facteur indiquant I’importance que Ton accorde aux recompenses futures. 

Les algorithmes d’apprentissage par renforcement que nous verrons plus loin utilisent qua- 
siment tous une fonction de valeur V n (Figure 7.3) qui permet, pour une politique n donnee, 
d’estimer le revenu moyen (les recompenses futures) pour un etat donne si Ton suit la politique 
consideree : 

V n (s)=E 7l (R t \s t = s) 



Figure 7.3- La fonction de valeur optimale dans notre exemple : pour chaque etat, le niveau 
de gris indique la recompense a long terme qui sera obtenue en prenant le chemin le plus 
court vers le but. 

Ces fonctions de valeurs peuvent aussi se definir non pas pour un etat mais pour un etat et 
une action realisee dans cet etat: 


Q n (s,a) = E n (R t \s t = s.a, = a) 


La fonction de valeur pour un etat 5 etant la moyenne des Q n (s,a), ponderees par la probabi¬ 
lity de chaque action : 

y K {s) = Y,^{s,a)Q n {s,a) 


renforcement fournira la politique optimale, mais seulement dans I'ensemble des politiques “myopes”, n’ayant pas 
toutes les informations pour une decision optimale. 
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7.1. FORMALISATION 


Une propriety essentielle de ces fonctions de valeur va permettre de creer les differents algo- 
rithmes d’apprentissage, il s’agit de la relation de recurrence connue sous le nom d 'equation de 
Bellman: 

y’M = X>(s,a)L i S' + 'V v 'V)] 

a s' 

Cette equation traduit une coherence de la fonction de valeur en reliant la valeur d’un etat a 
la valeur de tous les etat qui peuvent lui succeder. Elle se deduit simplement de la definition de 
v n de la maniere suivante : 


= E n {R t \s t =s ) 

oo 

= £7r(X/>m+ik 


= s 


k =0 

OO 

Eni.R+1 +yY,^ r t+k+ 2\s t 


= s 


k =0 


= 


C' + T E n[ E ^r t+k+2 \st+i = s' 


,k =0 




La fonction de valeur permet de caracteriser la qualite d’une politique, elle donne, pour chaque 
etat, le revenu futur si Ton suit cette politique. Elle permet egalement de comparer les politiques 
en definissant un ordre partiel : 


7t > Tl' Vs, V 7I (s) > V n> (s) 

Cet ordre permet de definir la fonction de valeur de la politique optimale (Figure 7.3) que 
I’apprentissage par renforcement va chercher a estimer: 

V*(s) = maxV 7I (s) 

71 

fonction qui peut aussi s’exprimer pour un couple etat-action : 

Q*(s,a ) = ma xQ K (s,a) 

avec la relation suivante : 

Q*(s,a) = E{r t+ \ +yV*(s t+ i)\s t = a,a t = a) 

II est egalement possible d’ecrire une relation de recurrence pour la fonction de valeur opti¬ 
male qui sera legerement differente de I’equation de Bellman. On parle alors d ’equation d’opti- 
malite de Bellman, qui peut s’ecrire : 

V*(s) = maxE(r t+ i+yV*(s t+ i)\s t =s,a t = a) 

a 

= max£^,[^J+YV*( S ')] 

Q. . 

c' 
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soit, pour la fonction Q : 


Q*{s,a) 


E ( r t+ \ +ymax<2*(,57 + i,(2 / )|s / 




^,+yma xQ*(s',a') 

a 1 


Intuitivement, cette equation traduit par I’operateur max a le fait que la politique optimale choisit 
Taction qui va maximiser le revenu. 

Si I’environnement est un MDP fini, ces equations de Bellman ont une solution unique qui 
va done donner pour chaque etat la recompense maximale que pourra recueillir I’agent a partir 
de cet instant. A partir de la connaissance de V*, il est tres simple de construire une politique 
optimale, en associant a chaque etat la ou les actions a' qui permettent de realiser le maximum 
de I’equation d’optimalite de Bellman : 

a — argmaxE (r t +\ +yV'*(.s 7 +i)|,SY — s,a t — a) 

a 


ou, si Ton utilise la fonction Q : 

a = argmax Q* ( s , a) 

a 

il faut cependant noter que la construction de la politique a partir de V* necessite la connaissance 
du modele du monde afin d’estimer r t+ 1 et s t +i. Cette connaissance est inutile si Ton utilise Q*. 

Tout le probleme pour I’apprentissage va done etre d’estimer V* ou Q* pour en deduire une 
politique optimale. On peut remarquer que si Ton connaTt completement le probleme (e’est a dire si 
Ton connaTt et ), il est possible de calculer directement V* ou Q* en resolvant le systeme 
des equations d’optimalite de Bellman pour chaque etat. Cette solution est peu applicable en 
robotique car I’environnement est en general inconnu et de plus elle ne correspond pas a des 
caracteristiques souhaitables de I’apprentissage tel que la capacite a apprendre par essais et 
erreurs. 


7.2 Programmation dynamique 

La programmation dynamique est un ensemble de methodes permettant de calculer une po¬ 
litique optimale dans un MDP connu, en utilisant les proprietes des equations de Bellman. Nous 
supposons done dans cette section que le modele de I’environnement est connu. La program¬ 
mation dynamique va chercher a estimer la fonction de valeur optimale V* afin d’en deduire une 
politique optimale. 

7.2.1 Evaluation d’une politique 

La premiere etape de la programmation dynamique est I’estimation de la fonction de valeur 
pour une politique donnee tu. Cela peut se faire soit en resolvant le systeme des equations de 


71 


Robotique Mobile - david.filliat@ensta-paristech.fr 



7.2. PROGRAMMATION DYNAMIQUE 


Bellman, soit en utilisant une procedure iterative, que nous prefererons car elle s’applique plus 
naturellement, notamment en cas de contraintes temps-reel. Cette procedure utilise le fait que la 
fonction de valeur V n est le point fixe de I’equation de Bellman : 

V(j) = £lt(j,a)£?“ y [«+TV(s')] 

a c' 


Nous pouvons ainsi utiliser cette equation comme etape de mise-a-jour permettant de calculer 
une suite de fonctions V k qui convergera vers V n : 


V 


k+\ 


s) = 




*C+yv k (s) 


La methode de programmation dynamique va done utiliser cette mise-a-jour tant que les modifi¬ 
cations max s (\V k+1 — V k ) seront superieures a un seuil donne pour fournir une approximation de 


V K . 


7.2.2 Amelioration d’une politique 

Apres revaluation d’une politique, il va etre possible de calculer une meilleur politique a partir 
de sa fonction de valeur associee. En effet, pour une politique donnee, il n’y a aucune raison que 
la fonction de valeur satisfasse I’equation d’optimalitede Bellman, e’est a dire que I’on peut avoir: 

7r(s) ^ argmaxE (r t+ 1 +yV It (5 f+ i)|^ = s,a t = a) 

a 

Par contre, on peut prouver que la politique %' definie par: 

Tl f (s) — argmaxE (r ?+ i +yV 7t (5 f+ i)|5 f = s, a t = a) (7.1) 

a 

est meilleure ou equivalente a la politique n, ce qui nous permet d’ameliorer notre politique initiale. 

De plus, si la politique n' ainsi definie n’est pas meilleure que tz (e’est a dire si V 71 — V 71 ), la 
definition de tz' (eq 7.1) est I’equation d’optimalite de Bellman, qui prouve done que la politique 
obtenue est optimale. 

7.2.3 Algorithmes d’apprentissage 

Levaluation et I’amelioration de politique peuvent etre utilisees de differentes manieres pour 
estimer une politique optimale pour un MDP donne. 

Le premiere methode, I’ iteration de politique utilise simplement ces deux phases de maniere 
iterative : 

tzq ->• y 710 ->• tzi ->■ y 111 .. .7i* ->• y 11 * 

Dans ce processus, cependant, revaluation de politique est elle-meme un processus iteratif, 
qui ne va converger qu’a une erreur donnee pres et de plus etre potentiellement tres long. 
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Une autre methode pour converger vers la politique optimale est d’ameliorer la politique avant 
meme d’avoir une estimation correcte de sa valeur. On peut par exemple faire un nombre fixe 
d’iterations devaluation avant de faire une amelioration. Le cas ou on ne fait qu’une iteration 
devaluation de la politique est I’algorithme 6’iteration de valeur, pour lequel les deux etapes se 
reduisent a une seule : 


V k+l (s) = max^ s , 


C'+YV'V) 


et qui converge vers V*. 

Pour les problemes avec de tres grands espaces detats, le fait de parcourir tout les etats 
pour la mise-a-jour peut etre difficile en soit. II est dans ce cas possible d’utiliser une methode de 
programmation dynamique asynchrone qui realise la mise-a-jour de Iteration de valeur pour un 
etat selectionne au hasard, ou en fonction du comportement de I’agent. Cette methode converge 
egalement vers V* a condition de visiter a la limite tout les etats un nombre infini de fois. Elle 
possede I’avantage de fournir rapidement une approximation de la fonction de valeur. 


7.3 Methodes de Monte-Carlo 

Le fait de devoir connaTtre I’environnement pour apprendre une strategie rend les methodes 
de programmation dynamique peu utiles en robotique. Les methodes de Monte-Carlo que nous 
allons voir dans cette section vont utiliser les memes idees (estimer la fonction de valeur puis 
ameliorer la politique), mais en ayant recours a des experiences realisees dans I’environnement 
plutot qu’a un modele. 

7.3.1 Evaluation d’un politique 

Lestimation de la fonction de valeur va se realiser a partir d’un ensemble de sequences “etat- 
action-recompenses-etat-action ...” realisees par I’agent. Pour les etats de ces sequences, il est 
alors possible d’estimer V simplement par la moyenne des revenus : 

v(*) = ]\t^)^ Revenu ^ 

ou N(s ) est le nombre de sequences ou apparait 5 et Revenues ) est le revenu apres la premiere 
visite de I’etat s, c’est a dire la somme ponderee des recompenses apres cette visite 2 . 

Cette methode de Monte-Carlo a de plus I’avantage d’estimer la valeur de chaque etat inde- 
pendemment, contrairement a la programmation dynamique qui doit estimer simultanement tout 
les etats, ce qui permet par exemple de se concentrer sur des zones de I’espace d’etats plus 
importantes pour I’objectif du robot. 

Cette methode s’applique de la meme fagon pour une fonction Q(s, a), ce qui est encore plus 
interessant, car pour trouver la politique optimale a partir de V* il faut disposer d’un modele de 

2. II est egalement possible d’integrer les nouvelles sequences de maniere iterative en utilisant un mise a jour du 
type V(s) <r- V(s) + a [/?(s) — V(s)]. 
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7.4. APPRENTISSAGE PAR DIFFERENCES TEMPORELLES 


I’environnement, ce qui n’est pas le cas en utilisant Q*. Lutilisation de Q et de la methode de 
Monte-Carlo permet done de decouvrir la politique optimale sans aucun modele de I’environne- 
ment, en utilisant uniquement des experiences realisee dans cet environnement. 

7.3.2 Besoin d’exploration 

La methode de Monte-Carlo presentee doit estimer les valeurs Q(s,a) a partir des recom¬ 
penses obtenues apres avoir realise Taction a dans I’etat 5 . Ceci suppose done que tout ces 
couples (5, a) soient rencontres une infinite de fois a la limite. Ceci est particulierement pro- 
blematique, car toutes les politiques ne peuvent garantir cette propriety. II faut done ajouter au 
comportement defini par la politique un comportement d’exploration qui va assurer que toutes les 
actions seront realisees avec un certaine probability (meme faible). 

Deux solutions existent pour resoudre ce probleme. La premiere consiste a contraindre les 
politiques pour qu’elles associent au moins une faible probability proportioned a un parametre 
£ a toutes les actions. L’apprentissage converge ainsi vers la politique optimale au sein de cette 
classe. Cette probability garanti une exploration exhaustive et peut etre diminuee au cours du 
temps lorsque les donnees suffisantes pour evaluer la politique ont ete recueillies. Cette methode 
s’appelle controle “on policy” car elle modifie la politique effectivement suivie par I’agent et evalue 
cette politique modifiee. 

La seconde methode est une methode “off policy” car elle evalue une politique tandis que 
I’agent en suit une autre. Cette autre politique choisit en general Taction de la politique originate 
avec une probability 1 — £ et une action aleatoire avec une probability £. Pour evaluer la politique 
originate, revaluation de Monte-Carlo utilise simplement les parties finales des sequences pour 
lesquelles le choix d’action correspond au choix qui aurait ete fait par la politique originate, mais 
modifie les ponderations des recompenses pour compenser les differences de probability de 
choix des actions entre les deux politiques. 

7.3.3 Algorithmes d’apprentissage 

Lapprentissage utilisant un methode de Monte-Carlo se fait en alternant revaluation d’une 
politique et son amelioration en prenant I’action maximisant le revenu dans chaque etat. Cette 
alternance peut se realiser de plusieurs manieres, comme pour la programmation dynamique. 
Soit revaluation est complete avant de realiser une amelioration, soit il est possible d’alterner une 
evaluation utilisant une seule sequence, puis une amelioration. 


7.4 Apprentissage par differences temporelles 

Les deux methodes que nous avons vu precedemment ont chacune un avantage important. 
La methode de Monte-Carlo permet d’apprendre a partir d’experiences, sans aucun modele de 
I’environnement. La programmation dynamique pour sa part possede la propriety interessante 
d’utiliser les estimations des etats successeurs pour estimer la valeur d’un etat, on parte de 
“bootstrap”. Cette caracteristique permet une convergence beaucoup plus rapide (en terme de 
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nombre d’exemples etats/actions/recompenses) que la methode de Monte-Carlo. Les methodes 
d’apprentissage par differences temporelles vont reunir ces deux proprietes et constituent les 
methodes les plus utiles en pratique en robotique. 
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Figure 7.4 - Illustration de la methode des differences temporelles. La valeur d’un etat est 
mise a jour en fonction de la recompense immediate (exemple du schema 2) et des estima¬ 
tions precedentes de la fonction de valeur (exemple du schema 4). 


[Revaluation de politique va done se faire a partir d’experiences comme pour la methode de 
Monte-Carlo qui utilise une moyenne pour estimer la valeur d’un etat. Cette moyenne mise sous 
forme iterative conduit a I’equation suivante : 

V(s t )^V(s t ) + a[R t -V(s t )] 

avec 

Rt — r t +1 +Y ? 7+2 + .... +y p r t+p+ i 

Par rapport a cette equation, I’idee est ici d’utiliser I’estimation du revenu a partir de la recom¬ 
pense suivante et de la valeur de I’etat suivant, au lieu d’utiliser les recompenses de la suite de 
I’experience. La methode des differences temporelles utilise done la mise-a-jour suivante : 

y Osv) y($t )+cc [r+ i+ y v (sf+i) _ v (iSf)] 

Cette mise a jour se fait naturellement de maniere incremental, au fur et a mesure des 
experiences de I’agent. L’equivalent de cette mise a jour pour la fonction Q est donne par: 

Q(s t ,a t ) h- Q(s t , a t ) + a [r t+ 1 + yQ(s t+ \ , a t+ 1 ) - Q(s t ,a t )] 

Cette methode est appelee Sarsa (pour State, Action, Reward, State, Action) et realise une 
estimation “on policy” de la politique suivie car elle utilise Taction a t+ \ qui depend de de la poli¬ 
tique. 


La methode la plus importante de I’apprentissage par renforcement est probablement le Q- 
Learning qui est la variante “off policy” de Sarsa qui va utiliser le maximum de la fonction sur les 
actions suivantes au lieu de Taction effectivement realisee : 


Q{s t ,a t ) <- Q(s t ,a t ) + a r t+ 1 +ymaxQ(s t +i,a)-Q(st,a t ) 


(7.2) 


Cet algorithme fait converger Q vers Q* independemment de la politique suivie, tant que cette 
politique garanti une exploration exhaustive (cad une probability non nulle pour toutes les actions 
dans tous les etats). 

Comme pour les autres methodes, la politique optimale se deduit simplement de la fonction 
valeur optimale. 
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7.5. TRACES D’ELIGIBILITE 


7.5 Traces d’eligibilite 

Les methodes utilisant les differences temporelles que nous avons vues precedement per- 
mettent de remplacer la fin d’un episode qui serait utilise par une methode de Monte-Carlo pour 
estimer le revenu par la valeur estimee de I’etat suivant. Or au cours de I’apprentissage, cette 
valeur n’est pas forcement correcte et pourrait etre remplacee par d’autres evaluations. 

Le premier exemple est I’utilisation de n pas du futur, qui conduit a la methode des differences 
temporelles a n pas. Dans cette methode, le revenu est estime par une equation de la forme : 

Rt — R't — r t +1 + l r t+2 + ■ • • + Y* ( r f+n+1 +yV (Sf+n+l)) 

La mise a jour se ferait alors par I’equation : 

V(s t )^V(s t ) + a[Ii?-V(s,)] 

II est egalement possible d’estimer R t en utilisant des moyennes ponderees de R' t l : 

R t = Y, a i R t 

i 


avec Y. a i— 1- 

Un cas particulier interessant de cette derniere methode est I’utilisation d’une ponderation 
exponentielle qui va faire decroitre I’importance des experiences au fur et a mesure de leur eloi- 
gnement dans le temps : 

oo 

R t = (\-X)^X'Ri 

i= 1 

Ce cas particulier est interessant car il peut s’appliquer simplement en utilisant les valeurs 
passees des recompenses, au lieu des valeurs futures (on demontre que les mises a jour sont 
les memes). On utilise pour cela une valeur auxiliaire appelee trace d’eligibilite que Ton definit de 
la maniere recursive suivante : 


f jXe t -i(s) si sy^s t 
\ yke t -\(s) + \ si s — s t 
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Figure 7.5 - Illustration de la methode des traces d’eligibilites. La methode des differences 
temporelles est utilisee, mais propagee avec une decroissance a tous les etats de I’historique 
de I’agent. 
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CHAPITRE 7. APPRENTISSAGE PAR RENFORCEMENT 


La mise a jour des valeurs se fait alors pour chaque etat proportionellement a la valeur de son 
eligibility (Figure 7.5) : 


V (s t ) V ( s t ) + ae(s t ) [r t+ 1 + yV (sv+i) - V (s f )] 

Lidee de cette mise a jour est de remplacer la mise a jour d’un etat en utilisant des recom¬ 
penses futures par la mise a jour des etats passes en utilisant la recompense courante. Cela 
donne au final I’algorithme TD(^) 3 (algorithme 7.1). Cet algorithme se decline simplement pour 
les extension Sarsa(^) et Q(k). 


Algorithm 7 .1 - Algorithme TD(k) 

1 : Initialiser V (s) aleatoirement et e(s) — 0 pour tout s 
2 : for all episodes do 
3: Initialise s 

4: for all pas de I’episode do 

5: a<-1t(s) 

6: Executer a, recueillir r et I’etat suivant s' 

7: 8^r + yy(/)-V(5) 

8: e(s) <— e(s) + 1 

9: for alls do 

10: 17(5) <— V(s) +ct8e(s) 

11 : e(s) <— yXe(s) 

12 : end for 

13: S<—s' 

14: end for 

15: end for 


7.6 Application pratique 

En robotique mobile, les espaces d’entree et de sortie des capteurs et des effecteurs sont 
rarement discrets, ou, si ils le sont, le nombre d’etat est tres grand. Or I’apprentissage par renfor- 
cement tel que nous I’avons decrit utilise des espaces d’etat et d’action qui doivent etre de taille 
raisonnable pour permettre aux algorithmes de converger en un temps utilisable en pratique. 

Pour permettre d’utiliser I’apprentissage par renforcement, plusieurs approches sont pos¬ 
sibles. La premiere consiste a discretiser manuellement le probleme afin de fournir des espaces 
de quelques centaines d’etats qui pourront etre utilises directement par des versions nai'ves des 
algorithmes (utilisant par exemple simplement des tableaux de valeurs <2[,s][a], c’est cette me- 
thode que nous avons utilise dans I’exemple de la section suivante). II faut cependant bien faire 
attention au choix des discretisations afin qu’elle permettent un apprentissage correct en four- 
nissant des etats et des actions qui conduisent notamment a des recompenses coherentes. Ce 

3. TD pour Temporal Differences 
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choix peut etre relativement simple pour des capteurs intuitifs comme les capteurs de distance, 
mais etre complexe voir impossible si I’espace d’entree est plus abstrait ou si sa structure est peu 
connue (par exemple pour un jeu comme le backgammon). 


Q(s,a) 



Figure 7.6- Exemple de reseau de neurones simple permettant I’approximation de Q(s.a). 

La seconde methode va permettre de travailler directement dans les espaces d’etats conti- 
nus des capteurs en utilisant des methodes d’approximation de fonction. En effet, pour utiliser 
I’apprentissage par renforcement, il est simplement necessaire d’estimer correctement la fonc¬ 
tion Q(s,a) (par exemple). Or cette estimation peut se faire directement par un approximateur de 
fonction continu, par exemple un reseau de neurones (figure 7.6), que I’on entraine a I’aide des 
donnees recueillies sur le probleme. Lutilisation de ce type d’approximation permet de travailler 
directement dans I’espace continu et done de limiter les effets parasites qui pourraient appa- 
raTtre suite a un mauvais choix de discretisation. Ces methodes peuvent posseder cependant des 
inconvenients, notamment de realiser un apprentissage non local (comme dans le cas des re- 
seaux de neurones), ce qui entraine des modifications incontrolees de valeurs pour des couples 
(s, a) qui ne sont pas ceux pour lesquels on realise I’apprentissage. Certaines methodes utilisant 
d’autres types d’approximation (comme la regression ponderee localement [ 18]) permettre de 
s’affranchir de ces contraintes. 

7.7 Exemple de mise en oeuvre 

Dans cette exemple, nous avons utilise un algorithme de Q-Learning tres simple pour ap- 
prendre a un robot a eviter les obstacles. Le robot possede un telemetre laser et une base mobile 
differentielle. Nous avons discretise les donnees du telemetre selon le schema de la figure 7.7 
pour constituer un espace d’entree de 2187 etats. Les actions ont ete discretisee en trois actions 
elementaires : avancer, tourner a droite, tourner a gauche. 

La recompense etait de -10 lorsque le robot percute un obstacle (il est alors remis a son point 
de depart) et +3 lorsque le robot choisit Taction d’avancer. Lalgorithme de Q-Learning utilise un 
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Figure 7.7 - Discretisation de I’espace d’etats : pour chaque secteur, de 0 a 6 , une valeur 
Oj est calculee en fonction de la presence ou de /’absence d’obstacles dans les zones a, b 
et c : 0 si un obstacle est dans a, 1 si un obstacle est dans b et 2 sinon. L’etat s est la valeur 
en base 3 fournie par les des Oj : Y.k3 k (h■ Dans I’exemple, Ot, = 2.0\ = 2.0 2 = 1 .03 = 
1 ,04 = 2,05 = 2,06 = 2 etdoncs = 2150. 


simple tableau de 2187x3 cases pour representer la fonction Q. La courbe 7.8 donne 1’evolution 
au cours du temps des recompenses obtenues sur des episodes de 100 pas de temps. Les pas 
de temps ont une longueur variable et correspondent aux changements d’etat. Un episode dure 
en moyenne 35 secondes. La figure illustre egalement les trajectoires aleatoires initiales et le 
resultat apres convergence de I’algorithme. 



Figure 7.8 - Recompenses obtenues au cours du temps et exemples de trajectoires obte¬ 
nues au premier episode et a /’episode 185. 


7.8 Pour aller plus loin 

Reinforcement Learning : An Introduction de Richard S. Sutton and Andrew G. Barto. MIT 
Press, Cambridge, MA, 1998. A Bradford Book. Disponible en ligne 4 

Le reinforcement learning repository : http://www-anw.cs.umass.edu/rlr/ 


4. http://www.cs.ualberta.ca/~sutton/book/the-book.html 
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Troisieme partie 
Navigation utilisant une carte 
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Cette partie presente les methodes de navigation basees sur des cartes qui permettent a un 
robot de prendre en compte des buts a long terme en utilisant des informations memorisees sur 
la structure de son environnement. Ces methodes se basent sur trois processus : la cartographies 
la localisation et la planification, detailles dans les differents chapitres. 
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CHAPITRE 8. LOCALISATION, CARTOGRAPHIE ET PLANIFICATION 


Chapitre 8 

Localisation, Cartographie et Planification 


8.1 Les trois problemes de la navigation par carte 

Le processus complet qui permet a un robot de memoriser son environnement, puis de s’y 
deplacer pour rejoindre un but, peut etre decoupe en trois phases : la cartographie, la localisation 
et la planification. Ces trois phases permettent de repondre aux trois questions fondamentales 
pour la tache de navigation [93] : Ou suis-je ? Ou sont les autres lieux par rapport a moi ? et 
Comment puis-je atteindre mon but ? 

- La cartographie est la phase qui permet la construction d’une carte refletant la structure 
spatiale de I’environnement a partir des differentes informations recueillies par le robot. 

- Une telle carte etant disponible, la localisation permet alors de determiner la position du 
robot dans la carte qui correspond a sa position dans son environnement reel. 

- La planification , enfin, est la phase qui permet, connaissant la carte de I’environnement et 
la position actuelle du robot, de decider des mouvements a effectuer afin de rejoindre un 
but fixe dans I’environnement. 

Ces trois phases sont evidemment fortement interdependantes. Lordre dans lequel elles sont 
citees fait directement apparaTtre le fait que la seconde phase depend de la premiere. En effet, 
estimer sa position au sein d’une carte de I’environnement suppose implicitement que cette carte 
existe et qu’elle contient la position courante du robot. De meme, la troisieme phase depend des 
deux premieres, car la planification suppose que Ton connaisse sa position et que la carte de 
I’environnement represente une portion de I’environnement contenant au moins un chemin reliant 
cette position au but qui doit etre atteint. 

Mais la relation entre les deux premieres phases est plus subtile qu’une simple relation d’an- 
teriorite : c’est le meme probleme que pour I’ceuf et la poule. Chacun des deux elements peut, en 
effet, etre considere comme prealable a I’autre mais depend aussi de I’autre pour sa realisation. 
Dans le cas de la cartographie et de la localisation, nous avons deja vu que la localisation repose 
sur une phase prealable de cartographie. Mais pour construire une carte, il est necessaire de 
savoir ou ajouter, dans la carte partielle deja existante, toute nouvelle information recueillie par 
le robot. Cela requiert done une phase prealable de localisation au sein de la carte partielle deja 
existante. Pour un robot completement autonome, il est done impossible de ne pas traiter ces 
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deux problemes simultanement. Dans la litterature scientifiques, on parle ainsi de probleme de 
"Simultaneous Localization and Mapping" (SLAM) . 

Dans le cas ou Ton autorise un operateur humain a intervenir dans le processus, il est evi- 
demment possible de decoupler ces deux phases. Dans les applications reelle, il est frequent que 
Ton fournisse au robot une carte construite au prealable et qu’on ne s’interesse qu’a I’estimation 
de la position au sein de cette carte pour qu’il puisse accomplir sa tache. La carte peut alors etre 
obtenue de differentes manieres. II est par exemple possible d’utiliser un plan d’architecte d’un 
batiment pour le transformer en une carte utilisable par le robot. II est egalement possible d’utili¬ 
ser le robot dans une phase supervisee de cartographie. Au cours de cette phase, la position du 
robot peut-etre calculee de maniere precise par un dispositif externe au systeme de navigation, 
et ne necessite done pas que le systeme estime de lui-meme la position. Connaissant la position 
precise du robot, il est alors relativement simple de construire une carte de I’environnement. II 
est egalement possible d’utiliser un algorithme de SLAM comme sur un robot autonome, mais 
de corriger la carte avant de I’utiliser reellement. Cela permet notamment d’ajouter des obstacles 
"virtuels" pour interdire certains passages tels que les escaliers. 


8.2 Quelques hypotheses de travail 

8.2.1 Estimation de la position et de la direction 

A ce stade, il convient de preciser la notion de position que nous emploierons. En effet, la 
position d’un robot est definie a la fois par son emplacement spatial, estime par rapport a un 
point de reference et par sa direction, estimee par rapport a une direction de reference. Ces deux 
quantites sont couplees mais ont des statuts qui peuvent etre distincts en pratique. 

Lors du mouvement, la direction du robot influence la maniere dont varie sa position, mais peut 
parfois etre controlee independamment. Dans le cas de plates-formes holonomes, ce decouplage 
permet notamment de simplifier le processus de planification en ne tenant pas compte de la 
direction du robot, laquelle peut etre controlee sans influencer la position. La variable importante 
est alors la position du robot, la direction devant etre estimee pour pouvoir agir, mais non pour 
planifier. 

Cette independance relative au niveau de la planification peut conduire a des systemes d’es- 
timation de la position et de la direction separes. Cette separation est supportee par le fait que 
la direction d’un robot peut etre mesuree par des capteurs independamment de I’estimation de 
sa position. II est par exemple possible d’utiliser une boussole qui mesure la direction par rapport 
a la direction du pole magnetique, ou un gyroscope qui mesure la direction par rapport a une 
direction arbitraire fixe. 

Le choix de representer et d’estimer de maniere separee la position et la direction n’interdit 
toutefois pas des interactions entre ces informations. L’estimation de la position utilisera evidem- 
ment celle de la direction pour pouvoir integrer de nouvelles donnees lors du mouvement du robot. 
Lestimation de la direction pourra egalement dependre de la position par un systeme de recalage 
qui utilisera la perception d’un point de reference connu depuis une position connue pour estimer 
la direction. 
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Ceci dit, la majorite des systemes metriques (voir section 9.2) vont neanmoins estimer la 
position et la direction ensemble, soit en 2D (3 degres de liberte), soit en 3D (6 DDL). 


8.2.2 Environnements statiques et dynamiques 

II convient egalement de preciser les types d’environnements que nous considerons ici. En ef- 
fet, les robots sont amenes a se deplacer dans une grande variete d’environnements qui peuvent 
etre regroupes en deux grandes categories : les environnements statiques et les environnements 
dynamiques. Les environnements statiques sont des environnements qui ne subissent pas de 
modifications au cours du temps. Cette stability concerne a la fois leur structure spatiale et leur 
apparence pour les capteurs du robot. Cela exclut la majorite des environnements dans les- 
quels les humains evoluent quotidiennement. Les environnement dynamiques, pour leur part, 
presentent des caracteristiques qui evoluent au cours du temps. La plupart des environnements 
courants appartiennent evidemment a la seconde categorie. Par exemple, un environnement de 
bureau est dynamique, du fait des personnes qui y travaillent, des chaises qui y sont deplacees 
ou des portes qui y sont ouvertes ou fermees. 

II est, de plus, possible de distinguer deux categories d’elements dynamiques. La premiere 
categorie regroupe les elements variables qui ne caracterisent pas I’environnement. De tels ele¬ 
ments peuvent etre consideres comme du bruit qui n’a pas d’interet dans la modelisation de 
I’environnement pour la planification. C’est, par exemple, le cas des personnes evoluant dans un 
bureau, ou des chaises deplacees. Ces environnements peuvent etre consideres comme consti- 
tues d’une partie statique sur laquelle se superposent differentes sources de bruit. La partie 
statique est la partie la plus importante a modeliser pour parvenir a une navigation efficace. Deux 
effets du bruit doivent toutefois etre pris en compte. II faut premierement veiller a ce qu’il n’em- 
peche pas la realisation de commandes issues de la planification. Cela est en general realise 
par le systeme de controle (dans le cadre d’une architecture hybride, voir section 2.2.3), separe 
du systeme de navigation, qui realise I’interface avec la partie physique du robot. De plus, il faut 
prendre en compte ce bruit au niveau de la cartographie et de la localisation afin qu’il ne nuise 
pas a la modelisation de la seule partie statique de I’environnement et ne conduise pas a une 
mauvaise estimation de la position. Les methodes de navigation actuelles (presentees dans ce 
cours) sont plus ou moins robustes face a ces bruits, mais cette robustesse reste generalement 
limitee, surtout pour la partie cartographie. II commence cependant a apparaTtre des methodes 
prenant explicitement en compte ces elements dynamiques, qui permettent d’envisager d’utiliser 
des robots dans des environnements assez fortement bruites (par exemple [ 43]). 

La seconde categorie d’elements dynamiques regroupe les elements variables qui caracte¬ 
risent I’environnement et peuvent avoir un interet pour la planification. C’est, par exemple, le cas 
des portes qui modifient la structure spatiale de I’environnement et peuvent entrainer des modi¬ 
fications de trajectoires en fonction de leur etat. Ms doivent done etre enregistres dans la carte si 
Ton veut pouvoir les prendre en compte. 

La plupart des systemes de navigation robotiques s’interessent aux environnements appar- 
tenant a I’une des deux premieres categories. Les environnements sont done supposes etre soit 
statiques, soit entaches d’un bruit qui n’influence pas la planification. Ces systemes s’interessent 
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done a modeliser la partie statique des environnements qui va etre utile pour la localisation et 
la planification. II taut toutefois noter que ces systemes, qui ne modelisent pas les elements dy- 
namiques de la seconde categorie, sont neanmoins capable d’evoluer dans des environnements 
qui contiennent de tels elements. Pour ce faire, ces systemes sont en general capables de ve¬ 
rifier que la trajectoire planifiee est correctement executee. En cas de probleme d’execution, un 
chemin alternatif ne passant pas par la zone qui ne peut etre atteinte est alors recherche. Cette 
methode, qui ne modelise pas explicitement les portes, par exemple, est neanmoins capable de 
provoquer des detours si une porte fermee bloque un chemin. 
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Chapitre 9 


Les representations de I’environnement 


Les deux utilisations possibles des perceptions presentees dans le chapitre 3 (avec et sans 
modele metrique) trouvent un parallele dans deux types de representations de I’environnement. 

Lorsqu’aucun modele metrique n’est utilise pour les capteurs, les donnees sont en general 
memorisees dans une carte topologique [82, 131 ] (cf. figure 9 . 1 ). Dans une telle carte, un en¬ 
semble de lieux et leurs relations de voisinage sont memorisees. Chaque lieu est defini au moyen 
de perceptions recueillies lorsque le robot se trouve a la position correspondante. Les relations 
entre lieux sont en general deduites des donnees proprioceptives. 

En revanche, lorsqu’un modele metrique des capteurs est utilise, les donnees peuvent etre 
memorisees au sein d’une carte metrique [101 , 29] (cf. figure 9.1) qui rassemble dans un meme 
cadre de reference les donnees proprioceptives et les perceptions. La carte contient alors un en¬ 
semble d’objets, ayant chacun une position associee. Naturellement, il est possible de construire 
une carte topologique lorsqu’un modele metrique est utilise. Dans ce cas, toutefois, les percep¬ 
tions ne sont en general pas utilisees pour estimer la position relative des lieux visites, mais 
seulement pour caracteriser ces lieux. 

II est egalement possible d’utiliser des representation hybrides qui vont avoir des caracte- 
ristiques a la fois topologiques et metriques afin de beneficier des avantages de chacune des 
approches. 

Notons que la notion de topologique et de metrique est differente de celle mentionnee pour 
les strategies de navigation dans I’introduction. Ici, cette notion fait reference a la maniere dont 
les informations sont memorisees et non a la strategie de navigation utilisee. Ainsi une carte to¬ 
pologique pourra contenir des informations metriques et pourra etre utilisee pour une strategie 
de navigation metrique, au sens donne dans I’introduction. Dans la suite de ce cours, le concept 
topologique/metrique fera toujours reference au type de carte utilise, et non a la strategie corres¬ 
pondante. 
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Carte topologique 


Figure 9.1 - Les cartes utilisees en robotique peuvent etre de deux types : les cartes topo- 
logiques, d’une part, qui memorisent un ensemble de lieux, ainsi que les manieres de se de¬ 
placer de I’un a I’autre (dans cet exemple, des pieces et des couloirs) et les cartes metriques, 
d’autre part, qui memorisent un ensemble d’objets pergus (des murs dans cet exemple) avec 
une position dans un cadre de reference global. 

9.1 Cartes topologiques 

9.1.1 Description 

Les cartes topologiques permettent de representer I’environnement du robot sous forme de 
graphe. Les noeuds du graphe correspondent a des lieux, c’est-a-dire des positions que le ro¬ 
bot peut atteindre. Les aretes liant les noeuds marquent la possibility pour le robot de passer 
directement d’un lieu a un autre et memorisent en general la maniere de realiser ce passage. 

La detection et la memorisation des lieux reposent en general sur deux procedures qui uti¬ 
lised les perceptions. La premiere permet simplement de comparer deux perceptions et done de 
reconnaitre un lieu de la carte ou de detecter un lieu nouveau. La seconde procedure permet de 
memoriser un nouveau lieu ou d’adapter la definition d’un lieu lors des passages successifs du 
robot en ce lieu. Comme nous I’avons deja mentionne, la reconnaissance d’un lieu est soumise 
aux problemes de la variability perceptuelle et du perceptual aliasing . En consequence, la pre¬ 
miere procedure peut donner des resultats errones. Par exemple, un lieu deja visite peut ne pas 
etre reconnu, ou un lieu nouveau peut etre confondu avec un lieu deja memorise. Pour resoudre 
ces problemes, la reconnaissance des lieux fera done appel aux donnees proprioceptives en plus 
des perceptions. De nombreuses methodes, dont les plus importantes seront decrites dans la 
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suite du cours, ont et mises en oeuvre dans ce but. 

Les donnees memorisees dans les aretes du graphe sur les relations de voisinage entre lieux 
proviennent, pour leur part (en general), des donnees proprioceptives. Cela est caracteristique 
des cartes topologiques, dans lesquelles les perceptions ne sont en general pas utilisees pour 
estimer les positions relatives des lieux visites, mais seulement pour reconnaTtre un lieu. Ces 
donnees peuvent etre des informations sur les positions relatives des noeuds, ou des informations 
sur les actions a effectuer pour parcourir cette arete. 


9.1.2 Avantages 

Un avantage important des cartes topologiques est qu’elles ne requierent pas de modele me- 
trique des capteurs pour fusionner les donnees proprioceptives et les perceptions au sein d’une 
representation unifiee de I’environnement. Cela est avantageux pour deux raisons. D’une part, 
ces modeles metriques peuvent, comme nous I’avons vu, etre difficiles a obtenir ou s’averer peu 
fiables. Se passer de modele metrique permet ainsi par exemple d’utiliser simplement des images 
panoramiques pour la reconnaissance de lieux. D’autre part, le fait de ne pas fusionner les deux 
sources d’informations permet de separer les influences des erreurs correspondantes. En effet, 
I’estimation de la position d’objets, lorsque Ton utilise un modele metrique, depend a la fois des 
valeurs mesurees par les capteurs et de la position du robot. Une erreur sur la position d’un 
objet peut done provenir des deux sources. Determiner la contribution de chacune des sources 
peut etre difficile. Dans les cartes topologiques, au contraire, le bruit sur les mesures des cap¬ 
teurs influe principalement sur la reconnaissance des lieux, tandis que le bruit sur les donnees 
proprioceptives influe principalement sur la position associee a chaque lieu. 

La memorisation de I’environnement sous forme d’un ensemble de lieux distincts autorise 
en general une definition des lieux plus directement reliee aux capacites perceptives du robot. 
En effet, comme les perceptions ne sont pas transformees dans un repere metrique, il n’y a 
pas de limitation au type de capteurs utilisables (of. la section 3.2). Cette utilisation directe des 
perceptions permet un meilleur ancrage dans I’environnement, e’est-a-dire une meilleure mise en 
relation du robot avec son environnement. Puisque la carte est tres proche des donnees brutes 
pergues par le robot, il est en general assez simple de comparer et de memoriser des lieux de 
I’environnement. 

Cette proximite avec les donnees brutes conduit en general la representation topologique a 
utiliser beaucoup moins de concepts de haut niveau que les representations metriques. La carte 
topologique reste ainsi proche des possibility du robot, en memorisant ses perceptions et ses 
deplacements possibles, independamment de concepts de plus haut niveau tels que des objets 
ou des obstacles. 

La discretisation de I’environnement correspondant au choix des lieux represents dans la 
carte est un autre point fort des cartes topologiques. Cette discretisation est en effet tres utile 
pour la planification des mouvements du robot, qui se reduit alors a la recherche de chemin dans 
un graphe. Cette recherche est, en terme de complexite algorithmique, beaucoup plus simple 
que la recherche d’un chemin dans un espace continu a deux dimensions. Cet avantage est 
encore plus important lorsque les lieux represents dans la carte correspondent a des structures 
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humaines telles que les portes, les couloirs ou les pieces. La discretisation permet alors de decrire 
et de resoudre les problemes de maniere naturelle pour les humains, par exemple en donnant 
I’ordre d’aller au bureau B744, plutot que de dire d’aller a la position definie par les coordonnees 
x=354,y=285. 


9.1.3 Inconvenients 

Comme nous I’avons deja mentionne, I’utilisation directe des perceptions sans modele me- 
trique empeche d’estimer ces donnees pour des positions non visitees. En consequence, les 
cartes topologiques necessitent en general une exploration tres complete de I’environnement 
pour le representer avec precision. En particulier, tous les lieux interessants que Ton souhaite 
trouver dans la carte devront etre visites au moins une fois au cours de la construction de la 
carte, parce qu’ils ne peuvent pas etre pergus a distance. Dans le cas ou les lieux represents 
sont des structures d’assez haut niveau (comme des couloirs ou des pieces), cela n’est pas ge- 
nant car ces lieux sont peu nombreux et une exploration exhaustive est done relativement rapide. 
En revanche, dans les cartes topologiques representant des lieux avec une assez grande densite 
spatiale, cela peut etre un inconvenient, car I’exploration complete de I’environnement demandera 
un temps important. 

La reconnaissance des lieux de I’environnement peut egalement etre difficile dans le cas de 
capteurs tres bruites, ou d’environnements tres dynamiques. Elle est, de plus, tres sensible au 
probleme de perceptual aliasing . Ces difficultes conduisent a des problemes de fausse recon¬ 
naissance, e’est-a-dire a la reconnaissance d’un lieu donne alors que le robot se trouve dans un 
autre lieu. A leur tour, ces fausses reconnaissances conduisent a une mauvaise topologie de la 
carte et a des liens qui relient des nceuds de la carte qui ne sont pas physiquement relies dans 
I’environnement. Ces difficultes rendent problematique la construction de cartes topologiques 
dans des environnements de grande taille, car la carte resultante risque d’etre incoherente. II de- 
vient alors tres difficile d’estimer correctement la position du robot au sein de cette carte et de lui 
ajouter de nouvelles informations sans erreurs. 

Comme nous I’avons vu, la representation de I’environnement peut etre assez proche des 
donnees brutes des capteurs du robot, ce qui peut etre un avantage du point de vue de I’autono- 
mie du robot. Toutefois, cette representation centree sur I’individu peut poser des problemes pour 
la reutilisation de la carte. En effet, le manque de representation de I’environnement indepen- 
dante de I’individu et I’absence de modele metrique des capteurs ne permettra pas d’adapter la 
carte a un robot avec des capteurs legerement differents. En effet, si Ton dispose d’un tel modele, 
I’adaptation se fait simplement au niveau du modele de capteur, sans modification de la carte 
elle-meme. Cela est plus difficile avec une carte topologique, au sein de laquelle il est quasiment 
impossible de changer les donnees recueillies par un capteur pour les transformer en donnees 
telles qu’un autre capteur aurait pu les acquerir. De plus, cette representation centree sur un in- 
dividu est moins naturelle pour un operateur humain, plus habitue aux representations objectives 
du type plan d’architecte, ce qui peut etre genant lorsque Ton souhaite une interaction forte entre 
un operateur et le robot. 
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9.1.4 Mise en oeuvre 

Definition des nceuds 

Le choix de ce que vont representer les noeuds de la carte determine tout le processus de 
construction de la carte topologique. Ce choix est lie aux capacites de perception dont on a dote 
le robot, lequel devra etre capable de detecter les lieux en question. La localisation et la mise a 
jour de la carte se feront chaque fois qu’un tel lieu aura ete detecte. La detection de ces lieux 
peut etre contrainte par les choix d’un operateur humain ou etre completement autonome. 

Noeuds definis par le concepteur 

La premiere possibility est de definir directement quels lieux doivent etre detectes par le robot 
et comment ils doivent I’etre. Des procedures sont alors ecrites qui permettent de detecter spe- 
cifiquement chaque type de lieu. Le choix le plus courant est I’utilisation de couloirs, de portes et 
d’intersections [33, 69, 83, 125]. Lorsque ce choix est fait, un tres petit nombre de lieux differents 
peuvent etre detecte, ce qui rend le probleme du perceptual aliasing omnipresent. Les systemes 
concernes dependent done en general fortement des donnees proprioceptives pour parvenir a 
utiliser ces representations. 




O 

° O 


o 



Figure 9.2 - Exemples de cartes topologiques avec des noeuds definis a des positions 
canoniques et des liens metriques (a gauche) et avec des noeuds denses et des positions 
metriques associees (a droite). 

Nceuds definis a des positions canoniques 

Plutot que de definir completement les lieux que peut detecter le robot, le concepteur peut 
simplement definir dans quels types de situations le robot peut enregistrer un lieu, laissant le soin 
de definir chaque lieu precisement au moment de la decouverte du lieu (figure 9.2, a gauche). 
Par exemple, le concepteur peut doter le robot de la capacite generale de detecter des portes. 
Lorsque le robot detectera une porte, il enregistrera un nouveau noeud dans la carte, mais ce 
noeud sera defini par la situation precise dans laquelle il se trouve quand il rencontre cette porte. 
II pourra, par exemple, enregistrer la couleur de la porte, le numero qui est inscrit dessus ou une 
image de I’environnement vu depuis cette position. Cette methode de definition des noeuds a ete 
proposee par Kuipers et Byun [82] sous le nom de distinctive places, puis utilisee sous une forme 
differente par Engelson et McDermott [43] et par Kortenkamp et Weymouth [80] sous le nom de 
gateways. 
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Noeuds definis de maniere non supervisee 

La troisieme methode pour definir les noeuds d’un carte topologique consiste a les definir 
comme des zones ou les perceptions sont approximativement constantes (figure 9.2, a droite). 
Cela est obtenu en general par la categorisation non supervisee des perceptions [9, 36, 51 , 54, 
84, 93, 98, 105, 141, 142], Ces perceptions sont done regroupees en categories contenant des 
donnees similaires, sans que ces categories soient specifies par un concepteur humain. Chaque 
categorie correspond alors a un ou plusieurs noeuds de la carte. Le nceud correspondant a une 
categorie etant unique dans le cas ou il n’y a pas de perceptual aliasing. Cette methode est 
bien adaptee a des robots autonomies car la categorisation ne necessite aucun superviseur, ni 
aucune definition a priori des donnees correspondant a un nceud. A ce titre, elle est utilisee dans 
tous les systemes de navigation qui s’inspirent des comportements de navigation des animaux 
[6, 12, 25, 124, 137], 

Pour mettre en oeuvre une telle approche, il faut definir un critere qui permette de decider 
quand un nouveau lieu a ete atteint. Le choix le plus evident est de comparer constamment la 
situation courante a celle du precedent noeud reconnu. Lorsque la difference est suffisamment 
importante, on considere qu’un nouveau lieu a ete atteint. Cette methode est utilisee par certains 
modeles [51, 54, 84, 98, 105], mais requiert que les perceptions soient comparees en temps 
reel, ce qui peut-etre difficile pour certains capteurs (les cameras, par exemple). D’autres mo¬ 
deles considered done plus simplement qu’un nouveau noeud a ete atteint lorsque la distance 
parcourue depuis la derniere reconnaissance est assez grande [6, 137, 142, 1 45]. 

Definition des aretes 

Les aretes reliant les noeuds permettent de memoriser des donnees sur les relations de voi- 
sinage entre lieux represents par les noeuds. Ces donnees sont en general obtenues grace 
aux informations proprioceptives. Elies peuvent etre plus ou moins precises et representees sous 
diverses formes. 

Relation d’adjacence 

La premiere information que porte une arete est une information d’adjacence entre les deux 
lieux represents par les noeuds qu’elle connect. Cette relation peut etre bidirectionnelle ou non. 
Lexistence d’une arete signifie done que le robot peut passer directement d’un lieu a I’autre, sans 
passer par un lieu intermediate. Si certains modeles ne memorised que cette information d’ad¬ 
jacence [5' , 55, 69, 79, 106, 141], cette information est prise en compte dans tous les modeles, 
meme si des informations supplementaires sont enregistrees dans les aretes. 

Relations metriques 

Des informations metriques sur la position relative des lieux peuvent etre memorisees dans 
les aretes. Ces informations portent en general sur la position relative des lieux relies par I’arete 
[43, 66, 82, 83, 105, 125, 127, 142] (figure 9.2, a gauche). Elies sont fournies et quantifies 
par les donnees proprioceptives lorsque le robot se deplace d’un lieu a I’autre. Cette methode 
presente I’avantage de limiter I’accumulation de I’erreur des donnees proprioceptives, puisque 
ces donnees ne sont utilisees que sur la distance reliant un noeud a un autre. Cette distance 


Robotique Mobile - david.filliat@ensta-paristech.fr 


94 



CHAPITRE 9. LES REPRESENTATIONS DE L’ENVIRONNEMENT 


est en general assez courte pour eviter une accumulation d’erreurs trop importante. Les cartes 
topologiques utilisant de telles informations metriques sont appelees par certains auteurs cartes 
diktiometriques [ 3], ou carte topo-metriques [13]. 

Association de positions aux nceuds 

Dans le but d’integrer les donnees proprioceptives a une carte topologique, il est egalement 
possible d’associer une position a chacun des noeuds (figure 9.2, a droite). Cette position se 
mesure dans I’espace dans lequel s’expriment les donnees proprioceptives et correspond a la 
position des differents lieux dans I’environnement. Ce type de carte se rapproche fortement des 
cartes metriques, a la difference que seuls les lieux visites par le robot, et non les objets per- 
gus par le robot, sont memorises. L’inconvenient, par rapport a I’approche precedente, est qu’il 
est necessaire de corriger les informations proprioceptives car elles ne sont plus utilisees lo- 
calement. Chaque nceud ayant une position dans un cadre de reference global, il est possible 
de se contenter de cette information, sans ajouter de liens entre les noeuds [ 08, 6, 12]. Tou- 
tefois, certains modeles utilisent egalement des liens pour memoriser I’information d’adjacence 
[98, 137, 84, 146, 36, 142, 33]. Comme I’information de position de chaque nceud est absolue, ce 
type de carte peut etre appele carte diktiometrique absolue. 

Relation implicite 

Dans certains cas, il est possible de retrouver les relations de position entre les lieux au vu 
des seules perceptions qui les represented. Cela est possible, par exemple, lorsque les lieux 
sont definis par la configuration d’amers distants qui peuvent etre pergus par le robot lorsqu’il 
se trouve a cette position. Un certain nombre d’amers communs, visibles depuis deux lieux diffe¬ 
rents permettront d’avoir des informations sur la position relative de ces lieux. L’existence d’amers 
communs peut done etre utilisee comme lien implicite [93, 124, 25]. 


9.2 Cartes metriques 

9.2.1 Description 

Dans une carte metrique, I’environnement est represente par un ensemble d’objets auxquels 
sont associees des positions dans un espace metrique, generalement en deux dimensions. Cet 
espace est, la plupart du temps, celui dans lequel s’exprime la position du robot estimee par 
les donnees proprioceptives. Les perceptions permettent, en utilisant un modele metrique des 
capteurs, de detecter ces objets et d’estimer leur position par rapport au robot. La position de ces 
objets dans I’environnement est alors calculee en utilisant la position estimee du robot. La fusion 
des deux sources d’information au sein d’un meme cadre de representation est caracteristique 
des cartes metriques. 

Les objets memorises dans la carte peuvent etre tres divers et seront detailles dans la suite 
de cette section. Dans certaines implantations, ces objets correspondent aux obstacles que le 
robot pourra rencontrer dans son environnement. La carte de I’environnement correspond alors 
directement a I’espace libre, e’est-a-dire a I’espace dans lequel le robot peut se deplacer. 


95 


Robotique Mobile - david.filliat@ensta-paristech.fr 



9.2. CARTES METRIQUES 


9.2.2 Avantages 

Lavantage principal des cartes metriques est de permettre de representer I’ensemble de I’en- 
vironnement, et non un petit sous-ensemble de lieux comme le font les cartes topologiques. Cette 
representation complete permet ainsi d’estimer avec precision et de maniere continue la position 
du robot sur I’ensemble de son environnement. De plus, cette representation complete ne se li- 
mite pas aux positions physiquement explorees, mais s’etend a toutes les zones que le robot a 
pu percevoir depuis les lieux qu’il a visites. Cette propriety peut permettre la construction d’une 
carte plus exhaustive de I’environnement en un temps plus court. 

Un autre avantage des cartes metriques est lie au fait que la position du robot est definie de 
maniere non ambigue par ses coordonnees au sein de I’espace dans lequel la carte est represen¬ 
tee. II s’ensuit une utilisation simple et directe de toutes les informations metriques fournies par les 
donnees proprioceptives ou les perceptions. Cela est un avantage par rapport aux cartes topolo¬ 
giques ou les positions possibles du robot sont limitees aux noeuds presents dans la carte et sont 
done relativement imprecises. Une telle representation, dans laquelle chaque noeud peut couvrir 
une zone etendue de I’environnement, rend plus difficile I’utilisation des donnees metriques car 
la position relative de deux zones est moins bien definie. 

La representation de I’environnement independante de I’individu utilisee dans les cartes me¬ 
triques apporte un certain nombre d’avantages supplementaires. Comme nous I’avons mentionne 
a propos des cartes topologiques, une telle representation permet une reutilisation plus facile 
d’une carte sur des robots differents, equipes de capteurs differents, I’essentiel de I’adaptation se 
deroulant au niveau des modeles metriques des capteurs. Ce type de representation est aussi 
facilement interpretable par un humain, ce qui peut etre important dans le cas ou il doit intervenir 
dans les deplacements du robot. 

Cette representation peut de plus utiliser des concepts de plus haut niveau, tels que des 
objets, des obstacles ou des murs. Cela permet un apport de connaissance plus facile de la 
part des humains, par exemple pour imposer que les murs detectes soient perpendiculaires ou 
parallels. 

9.2.3 Inconvenients 

Lors de I’utilisation de cartes metriques, les donnees proprioceptives ont en general une im¬ 
portance superieure a celle qu’elles ont dans I’utilisation d’un carte topologique. Par consequent, 
une odometrie plus fiable peut etre requise. Le niveau de fiabilite necessaire peut etre atteint en 
imposant des limitations sur I’environnement du robot. Par exemple, il est possible d’imposer que 
tous les couloirs soient orthogonaux, afin de pouvoir corriger efficacement la derive de I’estimation 
de la position. 

Comme nous I’avons mentionne dans la section 3.2, un modele metrique des capteurs peut 
etre difficile a obtenir. Les problemes lies au bruit des capteurs et a la difficulty de modeliser 
de maniere fiable leur relation avec I’environnement constituent done un point faible des cartes 
metriques. 

Enfin, le calcul de chemin au sein des cartes metriques peut etre plus complexe, car la pla- 
nification se deroule dans un espace continu et non dans un espace prealablement discretise, 
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comme c’est le cas pour les cartes topologiques. De nombreuses methodes recourent d’ailleurs 
a I’extraction d’une carte topologique depuis la carte metrique pour realiser cette operation de 
planification [87]. 

9.2.4 Mise en oeuvre 

Deux methodes principals sont utilisees pour memoriser des informations sous forme de 
carte metrique. La premiere methode consiste a extraire explicitement des objets des perceptions 
et a les enregistrer dans la carte avec leur position estimee. Les objets peuvent etre de types tres 
varies et se situer a differents niveaux d’abstraction. La seconde methode s’attache a representer 
directement I’espace libre accessible au robot et les zones d’obstacles qu’il ne peut pas franchir, 
sans avoir recours a I’identification d’objets individuels. 


Representation d’objets 

Points 

Les objets les plus simples qui peuvent etre utilises sont des points [93, 1 , 44] que Ton 

appelle dans ce cas amers (terme de marine designant des points de repere remarquables). Ces 
points correspondent a des objets de I’environnement de taille suffisamment petite, ou situes suf- 
fisamment loin du robot, pour pouvoir etre consideres comme ponctuels (figure 9.3, a gauche). 
Ms possedent I’inconvenient que la perception d’un point de I’environnement ne suffit pas a de¬ 
terminer de maniere unique la position du robot. Ce type de points de repere est par consequent 
relativement pauvre et contraint a la detection de plusieurs objets pour assurer une localisation 
precise. De plus, reconnaitre un tel point de maniere non ambigue est souvent difficile et requiert 
une bonne capacite de discrimination de la part des capteurs. Cependant, certains modeles ne 
requierent pas cette identification et utilisent des points indistinguables. 

Certains modeles ont recours a des ensembles de points dissemines sur la surface des objets 
de I’environnement [94, 63, 134] (figure 9.3, a droite). Ces points sont en general obtenus par 
des telemetres laser, qui permettent d’en recueillir un grand nombre avec une resolution spatiale 
elevee. Les objets sont ainsi definis par la configuration d’ensembles de points, et non plus par 
des points uniques. Cette methode presente done I’avantage de ne pas recourir a I’identification 
individuelle de chaque point. 

Points orientes 

Afin d’obtenir plus d’information sur la position du robot par la perception d’un seul objet, il 
est possible de doter chaque objet ponctuel d’une orientation. La perception d’un tel point oriente 
permet alors d’estimer la position du robot de maniere unique. Un tel type de point peut cor- 
respondre a un point de reference sur un objet non ponctuel de I’environnement [68, 129], par 
exemple Tangle d’un obstacle, pergu grace a un telemetre laser [18]. 

Frontiere des objets 

Les frontieres des differents objets et obstacles de I’environnement peuvent etre directement 
representees par des objets geometriques de plus haut niveau que des points. Des lignes ou des 
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Figure 9.3- Exemples de cartes metriques a base de points isoles (on parte alors d’amers, 
a gauche, repris de [109]) et de carte a base de scans lasers (chaque cercle est le centre 
d’un scan laser regroupant les points de la meme couleur, a droite). 



Figure 9.4 - Exemple de carte a base de segments detectes par un telemetre laser (repris 
de [52]). 
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polygones sont tres souvent utilises (figure 9.4). Ces objets sont extraits d’ensemble de points 
pergus par des capteurs a ultrasons [39, 53] ou des telemetres laser [103, 41, 28, 52], Des 
cylindres et des plans, detectes par des capteurs a ultrasons sont aussi utilises [92], ainsi que 
des structures de plus haut niveau, comme des plans en trois dimension, detectes par stereo¬ 
vision [8]. 

Representation de I’incertitude 

Dans la plupart des systemes, la maniere dont est representee et geree I’incertitude est 
cruciale. L’incertitude concernant les objets memorises dans la carte est de deux types. Le 
premier concerne I’incertitude sur les parametres des objets, par exemple sur leur position 
dans I’environnement. Ce type d’incertitude provient des erreurs de localisation du robot lors 
de la perception d’un objet, ou d’un bruit au niveau du capteur. II est, dans la majority des 
cas, represente de maniere probabiliste, notamment par la variance de parametres consideres 
[ 129, 8 , 103, 92, 68 , 44, 28]. Toutefois, d’autres methodes peuvent etre utilisees, par exemple des 
intervalles [43] ou des ensembles flous [53]. 

Le second type d’incertitude se place a un niveau plus fondamental. II porte sur la quality 
de la correspondance entre la carte et I’environnement. II mesure avec quelle confiance un objet 
present dans la carte correspond effectivement a un objet de I’environnement. En effet, il peut 
arriver que des erreurs de perception fassent apparaitre des objets qui n’existent pas dans I’envi- 
ronnement. Cette incertitude est caracteristique des environnements dynamiques, dans lesquels 
des objets sont susceptibles de se deplacer, d’apparaTtre ou de disparaTtre. Elle est geree, pour 
une grande partie, au niveau des capteurs, les procedures permettant la detection d’objet a me- 
moriser etant congues pour ignorer au maximum les elements instables de I’environnement. Au 
niveau de la carte, la plupart des modeles traitent ce probleme au moment de la mise a jour. II 
est par exemple possible de supprimer les objets qui auraient du etre pergus, mais qui restent 
introuvables par le robot. Certain modeles toutefois modelisent explicitement cette incertitude au 
moyen d’un parametre de credibility [92], Ce parametre permet une plus grande tolerance aux 
accidents de perception en mesurant la fiabilite d’objets comme point de repere. 

Representation de I’espace libre 

Un des premiers modeles pour ce type de representation est celui de la grille d’occupation 
[101, 131, 147], Dans ce modele, I’environnement est entierement discretise suivant une grille 
reguliere avec une resolution spatiale tres fine (cf. figure 9.5). Une probability d’occupation est 
associee a chaque element de cette grille. Cette probability mesure la confiance dans le fait que 
I’espace correspondant dans I’environnement est effectivement occupe par un obstacle. L’avan- 
tage d’une telle representation est qu’elle utilise directement les valeurs des capteurs de distance 
afin de mettre a jour les probabilites d’occupation des cellules. Elle permet done de supprimer la 
phase d’extraction d’objets qui est souvent couteuse en temps de calcul et source de bruit. 

Les grilles d’occupation utilisent cependant une quantity de memoire importante, qui croTt 
proportionnellement a la surface de I’environnement. Pour s’affranchir de ce probleme, certains 
modeles font appel a des discretisations irregulieres de I’espace [5] ou a des discretisations hie- 
rarchiques. De telles discretisations permettent de s’adapter a la complexity de I’environnement, 
en representant de maniere grossiere les grands espaces libres et plus finement les contours des 
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Figure 9.5- Un exemple de grille d’occupation utilisee pour representer un environnement. 

Les zones sombres indiquent une forte probabilite de presence d’un obstacle (Repris de 
[131]). 

obstacles. 

9.3 Representations hybrides et hierarchiques 

Au dela des deux grandes categories topologiques et metriques, il existe toute une gamme 
de representations hybrides melangeant ces deux approches. 

Nous avons deja mentionne un premier type de representations pouvant etre considerees 
comme hybrides : les representations topo-metriques qui sont des cartes topologiques contenant 
des informations metriques sur les aretes du graphe (figure 9.2, a gauche). Ce type de represen¬ 
tation est par exemple bien adapte pour construire des cartes a partir de la vision : chaque noeud 
du graphe peut etre associe a une image, relie a ses voisins par des informations obtenues par 
I’odometrie du robot ou par odometrie visuelle [ 3]. 

Les noeuds de la carte topo-metrique peuvent aussi contenir des informations plus complexes, 
telles que des cartes metriques locales (par exemple [1 36] et figure 9.6). L’interet de ces represen¬ 
tations est de contenir des cartes metriques precises pour des zones plus simples a cartographier 
et dans lesquelles la navigation devra etre precise (notamment les pieces) et de ne representer 
les couloirs (plus difficile a cartographier du fait de leur taille et du manque de points de reperes) 
que comme liens topologiques entre pieces. Ces cartes presentent ainsi I’avantage de ne pas 
demander une localisation tres precise sur une zone tres etendue. 

Enfin, au dela des cartes brutes construites par les methodes que nous allons presenter dans 
ce cours, il devient de plus en plus important d’introduire differents niveaux d’information dans 
les cartes pour s’adapter aux differentes taches d’un robot de service par exemple. En particulier, 
il commence a apparaitre des cartes contenant des informations semantiques. Ces informations 
se situent a un niveau plus haut que I’espace libre ou les obstacles represente dans les cartes 
brutes et peuvent concerner par exemple les pieces detectees dans I’environnement, le type 
de ces pieces (cuisine, salon...) ou les objets presents dans I’environnement [97, 72, 12]. Ces 


Robotique Mobile - david.filliat@ensta-paristech.fr 


100 






CHAPITRE 9. LES REPRESENTATIONS DE L’ENVIRONNEMENT 



Figure 9.6 - Un exemple de carte hybride melangeant des cartes metriques locales pour les 
pieces et une carte topologique globale. Les positions relatives des cartes locales sont alors 
connues de maniere imprecise car les couloirs ne sont pas cartographies precisement, mais 
simplement suivis pour alter d’une porte a une autre. 


Mfm _ 


Nick's Office 



'Jeremy's 

Office 


17/ Door 
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I I Corridor 

IBi Office 
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Figure 9.7 - Un exemple de carte hierarchique se basant sur une carte metrique dont est 
extrait une carte topologique. Les nceuds de cette carte topologique sont ensuite associes a 
une categorie (repris de [1 12]). 
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9.3. REPRESENTATIONS HYBRIDES ET HI ERA RCHIQUES 


types de representations sont souvent hierarchiques : sur la base d’une carte metrique, une carte 
topologique est construite, puis les noeuds sont classifies suivant leur types et permettent de me- 
moriser les objets associes (figure 9.7). Les informations semantiques peuvent etre utiles dans de 
nombreuses situations, par exemple pour chercher un objet (une assiette sera plus probablement 
dans la cuisine), ou pour la navigation : la connaissance du type d’obstacle peut ainsi permettre 
d’envisager de pousser certains objets tels que les chaises. 

Nous ne detaillerons pas dans ce cours la construction de ce types de cartes car elle font 
en general appel a I’integration de tres nombreuses methodes differentes et sont I’objet de re- 
cherches tres actives. 
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Chapitre 10 
Localisation 


Ce chapitre presente les principales methodes de localisation. On pourra trouver une descrip¬ 
tion succincte d’un grand nombre d’autres methodes dans [45]. La presentation est realisee selon 
une classification personnels en trois grandes categories qui me semble utile a la comprehen¬ 
sion, mais qui n’est pas forcement utilisee couramment dans la litterature. 


10.1 Differentes capacites de localisation 

II existe trois types de capacites regroupees sous le terme “localisation^ de complexites 
differentes. 

- Le suivi de position, est la capacite de mettre a jour une estimation existante de la position 
au vu de donnees proprioceptives ou de perceptions nouvellement acquises. Dans le cas 
des donnees proprioceptives, cette mise a jour concerne un deplacement du robot et va 
en general diminuer la precision de I’estimation courante de la position, a cause de I’erreur 
sur la mesure. Dans le cas de perceptions, au contraire, cette mise a jour va en general 
permettre d’ameliorer cette estimation grace au lien avec I’environnement fourni par ces 
donnees. L’utilisation de cet ancrage dans I’environnement est fondamental pour assurer 
que I’estimation de la position reflete correctement la position du robot dans I’environne- 
ment reel. Cette mise a jour integrant les deux types de donnees permet de combiner les 
avantages inherents aux deux types d’information afin d’estimer au mieux la position du 
robot. En pratique, toutefois, le suivi de position est problematique car il repose sur une 
estimation initiale de la position qui doit souvent etre fournie par une source exterieure. De 
plus, si la position estimee s’ecarte trop de la position reelle du robot, il peut tres bien etre 
impossible de parvenir a corriger I’erreur et de retrouver la position reelle, ce qui conduit a 
une derive de I’algorithme. 

- la localisation globale, est plus generale et permet de retrouver la position du robot sans 
qu’aucune estimation initiale ne soit fournie. Cette capacite est tres importante du point de 
vue de I’autonomie, car elle permet au robot de trouver sa position initiale, dans toutes les 
conditions, sans intervention exterieure. Elle permet, par exemple, de couper I’alimentation 
d’un robot a des fins de maintenance, puis de remettre ce robot dans une position quel- 
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conque de I’environnement sans se soucier d’initialiser correctement son estimation de la 
position. 

- la troisieme capacite est la capacite a retrouver la position d’un robot kidnappe, c’est a 
dire d’un robot dont on a une estimation de la position, mais dont I’estimation est fausse 
car il a ete deplace, sans que le systeme de localisation n’en soit informe. Par rapport a 
la localisation globale, ce cas presente la difficulty supplemental de parvenir a detecter 
que la position actuellement suivie n’est plus correcte. Cette phase est delicate car il faut 
distinguer entre les cas ou les perceptions sont simplement temporairement bruitees, sans 
que le robot ait ete deplace, et les cas ou le robot a reellement ete deplace. 

Les capacites de suivi de position et de localisation globale ont des proprietes duales. Comme 
le note Piasecki [ 0], dans le contexte d’une carte metrique, le suivi de position est une methode 
locale, continue, qui effectue regulierement de petites corrections a I’estimation de la position du 
robot. Cette methode effectue de telles corrections en se basant sur des objets de I’environnement 
et la maniere dont ils ont ete pergus par le robot. L’identification de ces objets est de plus simplifiee 
grace a I’estimation initiate de la position qui permet, en cas de perceptual aliasing, de decider 
quel est I’objet qui a ete pergu parmi les differents objets correspondant aux perceptions. 

Au contraire, la localisation globale est une methode globale, discontinue, qui effectue excep- 
tionnellement des corrections de grande ampleur de la position estimee. Sa premiere tache, avant 
d’estimer une position, est de determiner a quels objets de I’environnement correspond chacune 
des perceptions du robot. Cette tache peut etre tres simple dans le cas ou la carte ne contient que 
des amers differents, mais est en general assez complexe car plusieurs amers sont identiques a 
cause du perceptual aliasing. 

Comme nous I’avons souligne, le suivi de position permet de fusionner et de tirer parti des in¬ 
formations proprioceptives et des perceptions disponibles pour le robot. Cette methode ne conduit 
toutefois qu’a une estimation qui est localement la meilleure approximation possible de la posi¬ 
tion. En effet, la recherche est contrainte par I’estimation precedente de cette position. La position 
estimee sera done celle qui est la plus en accord avec les donnees recueillies, dans le voisinage 
de cette estimation precedente. L’estimation resultante peut done tres bien ne pas correspondre 
a la position qui, sur I’ensemble de la carte, correspond le mieux aux donnees. 

En principe, la localisation globale permet une telle estimation optimale. Au niveau de I’utili- 
sation des donnees disponibles pour le robot, il existe de nouveau deux classes de methodes de 
localisation globale : 

- La premiere, qui ne fonctionne que dans des environnements ou il n’existe aucun percep¬ 
tual aliasing, fait appel uniquement aux perceptions disponibles en une position donnee. 
Nous I’appellerons dans ce cours inference directe de position. 

- La seconde, qui fonctionne dans tous les environnements, fusionne au contraire les infor¬ 
mations proprioceptives et les perceptions, comme le fait le suivi de position. Toutefois, au 
lieu de restreindre la recherche par une estimation precedente de la position, elle estime 
parmi toutes les positions possibles au sein de la carte celle qui correspond le mieux aux 
donnees presentes et passees recueillies par le robot. Les methodes de cette categorie 
reposent, d’une fagon ou d’une autre, sur le suivi de plusieurs hypotheses de position, ce 
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qui permet de generaliser le suivi de position en utilisant de maniere plus efficace les infor¬ 
mations disponibles. 

Dans la suite de ce chapitre, nous allons presenter plus precisement les differentes methodes 
de localisation. Nous allons d’abord voir comment il est possible d’estimer la position d’un robot 
au vu des seules perceptions (section 10.2). Puis, dans le cas de systemes perceptifs soumis au 
perceptual aliasing, nous verrons comment il est possible d’integrer les informations propriocep- 
tives, de maniere locale (section 10.3) puis globale (section 10.4), afin de lever les ambiguites 
restantes. 


10.2 Estimation de la position par les perceptions 

Dans cette section, nous resumons les differentes methodes qui peuvent etre utilisees pour 
estimer la position d’un robot a I’aide des seules perceptions. Dans le cas ou I’environnement 
est exempt de perceptual aliasing , cette etape suffit a determiner la position du robot de ma¬ 
niere unique. Cette methode est alors la premiere methode de localisation globale mentionnee 
precedemment. Dans le cas ou le perceptual aliasing e st present, ces methodes sont egalement 
utilisees mais elles serviront a reperer plusieurs positions possibles pour le robot au sein de 
I’environnement. Le suivi de position ou la seconde methode de localisation globale qui seront 
presentes dans les paragraphes suivants doivent alors etre utilises en sus pour selectionner la 
position correcte. 


10.2.1 Cartes topologiques 

Dans le cas des cartes topologiques, estimer la position a partir des seules perceptions est 
extremement simple. En effet, parmi tous les lieux represents dans la carte, la position du robot 
est celle d’un des nceuds qui correspond le mieux aux perceptions courantes. La recherche de 
ces nceuds passe done par la comparaison des perceptions du robot avec les perceptions me- 
morisees dans chacun des noeuds de la carte. Les noeuds qui sont identiques ou suffisamment 
similaires sont alors reconnus comme positions possibles du robot. 

En I’absence de perceptual aliasing, tous les nceuds de la carte correspondent a des situa¬ 
tions differentes. Cette etape est alors suffisante pour la localisation complete du robot car le 
noeud reconnu est unique. Differents systemes perceptifs ont ete utilises pour implanter de tels 
modeles. Certains auteurs utilisent des images panoramiques de I’environnement pour definir 
les noeuds de la carte [80, 51]. D’autre modeles utilisent les directions ou les distances d’amers 
ponctuels tous discernables, soit en simulation [25, 93,139,1 24], soit sur des robots reels [9, 54], 

Lutilisation d’images panoramiques permet par exemple de realiser un systeme de locali¬ 
sation a partir d’une methode d’indexation d’images [128]. II suffit en effet d’avoir une base de 
donnees indexant les images des differents noeuds de la carte, puis, pour se localiser, de recher- 
cher dans cette base I’image la plus proche de I’image courante. Cette image nous donnera le 
noeud correspondant a la position courante. Lindexation peut par exemple utiliser une analyse 
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en composantes principales 1 qui va determiner une base sur laquelle il sera possible de projeter 
chaque image. Les coordonnees de chaque images dans cette base fournissent ainsi un repre¬ 
sentation de faible dimension de chaque noeud de la carte. Pour la localisation, il suffit de projeter 
I’image courante sur la base et de chercher I’image ayant les coordonnees les plus proches. 

Lorsqu’une position dans un espace metrique est associee a chacun des nceuds de la carte, 
la localisation permet en outre de determiner la position metrique du robot. Cette position peut 
simplement etre la position du nceud reconnu, mais il est souvent possible d’obtenir une preci¬ 
sion supplementaire. En effet, au lieu de tenir simplement compte du nceud le plus conforme aux 
perceptions courantes, il est possible de tenir compte de chacun des nceuds, selon son degre de 
similarity avec ces perceptions. La methode mise en oeuvre dans de tels modeles pour realiser 
cette estimation de position s’appelle dans la terminologie des neurosciences le codage par po¬ 
pulation de vecteurs [56]. Cette methode consiste a estimer la position du robot par la moyenne 
des positions des differents nceuds, ponderees par le degre de similarity de chaque noeud avec 
les perceptions du robot. Cette methode donne une estimation precise de la position du robot, 
mais suppose une relative continuity de I’environnement. Elle suppose en effet que des lieux si- 
milaires seront proches les uns des autres pour que la moyenne des positions ait un sens. Les 
perceptions doivent done varier de maniere relativement continue avec la position. 

Lorsque les modeles permettent la gestion du perceptual aliasing (par une des methodes de¬ 
crees dans les paragraphes suivants), les lieux peuvent egalement etre definis par des images 
panoramiques de leur environnement [6, 40, 66, 141, 113, 14! ], ou par la configuration des po¬ 
sitions d’amers distants [12, 137]. Mais, puisque le perceptual aliasing sera gere par ailleurs, 
des definitions plus simples des nceuds peuvent egalement etre adoptees, au prix d’une moins 
grande discrimination. Certains modeles utilisent ainsi les valeurs brutes de capteurs de distance 
[ 105, 98, 82, 69, 66, 1 08], ou la configuration des murs autour du robot afin de detecter des angles 
de couloirs ou des embranchements [83, 33, 125, 27, 106, 127, 130]. 

10.2.2 Cartes metriques 

Dans le cas des cartes metriques, diverses methodes d’estimation de la position existent. 
Lorsque les perceptions sont constituees d’amers ponctuels, une methode de triangulation peut 
etre utilisee [1 4, 59, 93, 96]. Cette methode repose sur la mesure de la direction et de la distance 
d’amers ponctuels connus. La perception de trois amers de ce type permet en effet de definir 
la position du robot de maniere unique. Un simple calcul mathematique permet done d’estimer 
cette position a partir des positions des amers. Ce calcul peut egalement etre approche par des 
reseaux de neurones, [ 1], ou par des methodes heuristiques qui permettent une meilleure 

resistance au bruit [ .44]. Lorsque cette methode est utilisee avec des cartes ne comportant pas 
de perceptual aliasing, chaque amer est unique et cette methode permet d’estimer directement 
de maniere non ambigue la position du robot. En cas de perceptual aliasing, certains amers ne 
peuvent etre distingues et il faut tenir compte de I’estimation precedente de la position afin de 
pouvoir identifier correctement les differents amers et estimer correctement la position. 

Certains types d’objets fournissent plus d’information que des amers ponctuels, sans toutefois 

1. voir par exemple http ://fr.wikipedia.org/wiki/Analyse_en_composantes_principales 
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Figure 10.1 - Les amers que peut reperer un robot fournissent plus ou moins d’information 
sur sa position en 2 dimensions. La detection d’un amer ponctuel permet de savoir que le 
robot se trouve sur un cercie entourant Lamer. Un amer rectiligne permet de connaitre la 
distance du robot perpendiculairement a cet amer, mais pas sa position le long de cet amer. 
Enfin, un amer ayant une etendue spatiale en deux dimensions permet de definir la position 
du robot de maniere unique. 


permettre une estimation non ambigue de la position. Par exemple, c’est le cas des murs dont la 
perception fournit une information sur la distance du robot a ce mur, mais pas sur sa position le 
long de ce mur (cf. figure 10.1). Certains modeles utilisent de tels types d’objets, qui permettent 
d’affiner une estimation precedente de la position, mais pas d’estimer directement cette position 

[28, 73, 117]. 

Lorsque les objets memorises dans la carte ont une certaine etendue spatiale en deux dimen¬ 
sions, il est par contre possible d’utiliser la perception d’un seul objet afin d’estimer directement la 
position du robot. Les amers utilises peuvent alors etre des objets tridimensionnels detectes par 
une camera [ 26], les angles des obstacles detectes par un telemetre laser [7, 18, 57, 73] ou un 
capteur a ultrason [92, 7], des segments detectes en utilisant une camera [8] ou un telemetre 

laser [28, 31 , 103]. 
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Figure 10.2 - Pour estimer la position d’un robot, il est possible de construire une carte 
locale representant I’environnement proche de la position courante. La comparaison de cette 
carte locale et de la carte globale de I’environnement permet alors de trouver la position. 
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D’autre modeles, enfin, n’estiment pas directement la position du robot au vu des perceptions, 
mais reposent sur la comparaison d’une carte metrique locale avec la carte metrique globale (cf. 
figure 10.2). La carte metrique locale est construite soit a partir des seules perceptions courantes, 
soit a partir des donnees proprioceptives et des perceptions recueillies sur un court laps de temps. 
Le probleme est alors de trouver la portion de carte globale qui correspond le mieux a la carte 
locale. Cette methode est tres souvent utilisee avec les grilles d’occupation [ 07, 19, 122, 131], 
ainsi qu’avec des donnees brutes de telemetres laser [94, 65, 41]. Le polygone de visibilite, qui 
entoure la zone d’espace libre visible depuis la position courante du robot peut aussi etre utilise 
[62, 75]. Comme nous le verrons dans la section suivante, ces methodes sont souvent utilisees 
sur un espace de recherche restreint par une estimation initiale de la position. Elies peuvent 
cependant etre utilisees pour la localisation globale [107, 62, 75]. 

10.2.3 Correlation de cartes 

Dans cette section, nous allons detainer une methode de correlation de cartes qui permet 
de chercher, pour deux cartes de dimensions reduites, la transformation (translation+rotation) qui 
permet la meilleure superposition. Cette transformation permet alors de corriger I’estimation de 
position du robot. Cette methode peut etre utilisee avec differents types de cartes, dont les grilles 
d’occupation, mais donne des resultats particulierement efficaces avec des donnees issues d’un 
telemetre laser (Figure 10.3). 



Figure 10.3- Exemple de resultat de correlation de mesures laser. La partie gauche montre 
les mesures affichees a la position mesuree par I’odometrie. La partie droite montre le resultat 
de la correlation. 

II existe de nombreuses methodes de mise en correspondance de scans lasers, telle que 
la methode Iterated Closest Point (ICP) [95] ou des methodes basees sur I’approche RANdom 
SAmple Consensus (RANSAC) [76] que nous ne presenterons pas toutes ici. La methode que 
nous avons choisi de presenter [ 16] est une methode simple qui est relativement robuste et 
resistante au bruit. Elle est basee sur les histogrammes des directions des tangentes au scan 
laser. 

La premiere etape consiste a calculer pour chaque point du scan la droite tangente en utilisant 
la methode des moindres carres. On cherche pour cela la droite qui fournit la plus faible erreur 
quadratique sur un ensemble comprenant quelques points avant et quelques points apres le point 
courant (Figure 10.4). 
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Figure 10.4 - Illustration de la methode de calcul de la tangente en chaque point du scan. 

Pour chaque point i, on cherche les parametres de la droite qui donnent la plus faible erreur 
quadratique £ ej. 

On construit ensuite I’histogramme des directions de ces tangentes, apres avoir filtre les points 
pour lesquels la qualite de I’approximation des tangentes est trop faible. Cet histogramme contient 
alors des pics lorsque des ensembles de points correspondent a un mur rectiligne de I’environ- 
nement. Apres avoir construit ces histogrammes de direction pour les deux scans, on cherche le 
decalage de ces histogrammes qui fournit la meilleure correlation. Dans I’hypothese ou les deux 
scans ont ete pergus en des points de I’environnement assez proches et representent done a peu 
pres la meme zone, ce decalage correspond a la rotation qui aligne les deux scans (Figure 10.5 
gauche). 


L 



Figure 10.5 - Illustration de la methode de recalage par correlation d’histogrammes. Reca- 
lage en rotation (a gauche) et en translation (a droite). 


Une fois la direction recalee, pour corriger la translation, on projette les points selon la direc¬ 
tion principal des tangentes. On construit ensuite I’histogramme du nombre de points projetes 
sur la perpendiculaire a cette direction et, en cherchant le maximum de correlation entre les 
histogrammes correspondant aux deux scans, on corrige le decalage en translation selon cette 
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direction (Figure 10.5 droite). On recommence ensuite cette procedure dans la direction perpen- 
diculaire. 

Cette methode fonctionne bien des qu’il y a des structures rectilignes dans I’environnement 
qui conduisent a des histogrammes contenant des pics pour lesquels le recalage par correlation 
fonctionne bien. Ms faut toutefois prendre un certain nombre de precautions qui ne sont pas de- 
taillees ici, notamment faire un filtrage intelligent des scan afin de ne garder que les points qui ne 
correspondent ni a du bruit, ni a des elements dynamiques. II faut egalement veiller a ne realiser 
ce recalage que pour des scans qui ont ete pergus a des positions effectivement proches, sous 
peine de recueillir des resultats tres fantaisistes. Pour s’assurer de ce point, il est possible de ve¬ 
rifier la qualite de la correlation des histogrammes afin de verifier a posteriori que les deux scans 
representaient des portions similaires de I’environnement. 


10.2.4 Limitations de (’estimation de la position par les perceptions 

Lhypothese d’un environnement sans perceptual aliasing est relativement forte, car beau- 
coup de capteurs en robotique sont limites et bruites. De plus, les environnements interieurs, de 
type bureaux, peuvent etre tres reguliers et presenter de nombreuses zones apparemment si¬ 
milaires pour le robot. Toutefois, les environnement courants contiennent souvent suffisamment 
d’informations accessibles a des capteurs precis et efficaces. Un etre humain, par exemple, n’a 
aucun mal a se reperer dans un immeuble de bureaux, en lisant les numeros ecrits sur les portes 
(trouver son chemin jusqu’a la sortie est un autre probleme I). II est done theoriquement possible 
de concevoir des systemes suffisamment discriminants pour etre capables de se reperer grace 
aux seules perceptions et une carte precise. II est de plus possible d’amenager I’environnement 
afin de simplifier la tache de perception pour le robot (comme le montre I’exemple des numeros 
de porte). Cette solution nuit toutefois a I’autonomie du robot puisqu’il est alors limite aux envi¬ 
ronnements bien definis qui ont ete prepares a I’avance. Le rejet de cette derniere solution et la 
difficulty de realiser des capteurs suffisamment discriminant conduit done la plupart des systemes 
de navigation robotique a prendre en compte le perceptual aliasing et a utiliser les donnees pro- 
prioceptives pour determiner leur position de maniere unique. Nous allons decrire les differentes 
methodes qui peuvent etre utilisees dans la suite de ce chapitre. 


10.3 Suivi d’une hypothese unique 

Lorsque les perceptions ne suffisent pas pour estimer la position de maniere unique, une 
seconde source d’estimation de la position du robot est necessaire pour lever I’ambiguite. Cette 
seconde estimation provient, d’une part de la position determinee lors de la precedente phase 
de localisation et, d’autre part, des donnees proprioceptives recueillies depuis cet instant. Les 
methodes presentees dans cette section utilisent cette seconde estimation pour selectionner ou 
calculer, a chaque instant, la position qui est la plus coherente vis-a-vis de cette estimation. Les 
positions estimees grace aux perceptions qui ne sont pas compatibles avec la position precedente 
sont simplement ignorees. 
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10.3.1 Cartes topologiques 

Dans une carte topologique, selectionner le nceud correct parmi les noeuds correspondant 
aux perceptions peut reposer simplement sur I’adjacence avec le nceud precedent. Dans ce cas, 
le nceud selectionne est celui qui est connecte au nceud representant la position precedente. 
Cette information est toutefois rarement suffisante et les relations metriques memorisees dans 
les aretes entre noeuds sont souvent utilisees en complement. Le nceud selectionne est done 
celui dont la position relative par rapport au noeud precedent correspond le mieux aux donnees 
proprioceptives [82, 83, 33, 105]. Lorsqu’une position metrique est associee a chaque noeud, 
e’est le noeud dont la position est la plus proche de la position estimee par I’odometrie qui est 
selectionne [12, 84, 145]. 

Certains modeles fonctionnent dans le sens oppose. Au lieu d’utiliser les donnees proprio¬ 
ceptives pour selectionner un noeud parmi les noeuds possibles, ils utilisent ces donnees pour 
restreindre I’ensemble des noeuds possibles et utilisent ensuite les perceptions pour selectionner 
le noeud correct parmi ceux-ci. Les perceptions sont, par exemple, utilisees pour choisir un noeud 
parmi tous les noeuds adjacents au noeud precedent [141], ou parmi les noeuds suffisamment 
proches de la position estimee par I’odometrie [ 42]. 

Enfin, certains modeles integrant les deux etapes en une seule en calculant la probability que 
chaque noeud represente la position courante. Cette probability integre, d’une part, la similarity 
du noeud avec les perceptions courantes, et d’autre part sa proximite avec la position estimee par 
I’odometrie. Le noeud ayant la plus forte probability peut alors etre reconnu [98], ou la position 
peut etre estimee par codage par population de vecteurs en utilisant les probabilites calculees 
[ 6 , 1 : ]. 

10.3.2 Cartes metriques 

Dans une carte metrique, I’estimation initiale de la position est utilisee pour restreindre I’es- 
pace de recherche de la position correspondant aux perceptions. Dans le cas ou la carte contient 
des objets, une estimation de la position permet de simplifier le probleme de I’appariement entre 
les objets pergus et ceux de la carte. En effet, dans le cas ou les senseurs sont soumis a un 
fort perceptual aliasing, de nombreux objets identiques, situes a des positions differentes, sont 
presents dans la carte. Lorsque le robot pergoit un objet, determiner quel objet a ete pergu exige 
d’examiner un grand nombre de possibilites. L’estimation de la position du robot permet done 
d’estimer la position des objets pergus et done de determiner a quels objets de la carte ils cor¬ 
respondent. Ce choix se fait en general en appariant simplement chaque objet pergu a I’objet 
memorise identique le plus proche [8, 28, 31,39, 57, 92, 103, 129, 144]. Une fois I’appariement 
effectue, les objets sont identifies sans ambigui'te et permettent done d’estimer la position de 
maniere unique. 

Lorsque la position est determinee par la mise en correspondance d’une carte locale et d’une 
carte globale, la position estimee est utilisee pour restreindre la recherche de la position don- 
nant la meilleure correspondance entre les deux cartes [ 19, 122, 131, 147], La recherche du 
maximum de correspondance est simplement effectuee sur une zone limitee autour de la position 
estimee precedemment. La zone etant de faible etendue, le probleme de perceptual aliasing se 
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pose moins et la recherche conduit en general a une position unique. 

Lorsque la position correspondant aux perceptions a ete identifiee de maniere unique, elle 
peut etre consideree directement comme la nouvelle estimation de la position du robot [147, 57, 
144], Cependant la plupart des modeles considered que cette estimation est entachee d’erreur, 
de la meme maniere que I’estimation initiale provenant de I’odometrie. La nouvelle position du 
robot est done en general une combinaison de ces deux positions. La plupart des modeles [8, 129, 
103, 31 , 92, 119, 14, 18, 94, 28] utilisent un filtre de Kalman [99] pour realiser cette combinaison. 
Ce filtre permet de calculer une estimation optimale de la position du robot, connaissant les deux 
positions et leurs covariances respectives. II constitue une methode classique de localisation et 
est decrit en details dans la section 10.3.3. D’autres methodes sont egalement utilisables pour 
combiner ces deux informations, par exemple la minimisation d’une fonction de cout reliee a ces 
deux positions [1 31 ], ou I’utilisation de la methode des moindres carres recursifs [ 1 6]. 

10.3.3 Le filtrage de Kalman pour la localisation 

Principe 

Le filtre de Kalman [99] permet d’estimer I’etat d’un systeme a partir d’une prediction bruitee 
de son evolution et de mesures bruitees de cet etat. C’est un filtre recursif optimal, qui suppose 
que le systeme considere est lineaire et les bruits blancs (de moyenne nulle). Pour la localisation 
en robotique mobile, I’etat du systeme est la position du robot, la prediction de revolution provien- 
dra des donnees odometriques et les mesures proviendront des perceptions, qui permettent de 
calculer la position grace a la carte. Dans la suite, nous presentons succinctement la description 
mathematique du filtre avant de donner un exemple d’application. 

Le filtre donne a chaque instant une estimation X t de la valeur de I’etat X t du systeme, ainsi 
qu’une estimation de la precision de cette estimation sous forme de sa matrice de covariance 
Pt 2 - 

Levolution de I’etat du systeme est modelisee par I’equation lineaire suivante : 

-Xj+i = A.X t + £ evo (10.1) 

ou A et B sont des matrices, u t est I’odometrie relevee par le robot ou le vecteur des com- 
mandes qui lui sont donnees et £ evo est le bruit sur I’estimation de I’etat, suppose d’esperance 
nulle et de variance Q = E{£ evo z T evo }. 

Une mesure Y t effectuee sur I’etat du systeme sera donnee par I’equation lineaire : 

Y t = H .X t + £ obs (10.2) 

ou H est la matrice d’observation et 8 0 b s le bruit de mesure, suppose de moyenne nulle et de 
variance P Y = E{£ obs £ T obs }. 

Le fonctionnement du filtre se deroule en quatre etapes (Figure 10.6) : 

2. Si on note le bruit comme une variable aleatoire N de moyenne nulle, avec X t = X, +N, la matrice de cova¬ 
riance est donnees par P, = E{N.N T } = E{(X-X)(X-X) T }. En pratique, N et X sont inconnus, mais le filtre de 
Kalman fournit directement une estimation de P, 
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Figure 10.6- Schema de fonctionnement du filtre de Kalman. 


- Prediction de I’etat a I’instant courant X*, ainsi que de sa covariance P* a partir du mo- 
dele devolution, de I’estimation au pas de temps precedent et de la commande depuis cet 
instant: 

X* =A.X t _ l +B.u t (10.3) 

La covariance est egalement predite par la formule : 

P* =A.P t ~i.A T + B.Q.B 7 (10.4) 

- Prediction de I’observation a partir du modele d’observation et de I’estimation de I’etat: 

Y* — H.X* (10.5) 

- Observation de I’etat : on obtient, grace au systeme perceptif, une mesure Y t , dont on 
estime le bruit Py grace au modele du processus de perception. 

- Correction de I’etat predit par mise a jour proportionnellement a I’erreur entre I’observa- 
tion predite et I’observation realisee : 

X t+l =X t *+K(Y t -Y t *) (10.6) 

P t+ \ =p;~ KHP* (10.7) 

ou K est le gain de Kalman, calcule pour minimiser I’erreur d’estimation au sens des 
moindres carres et donne par la formule : 

K = P*H t .{H.P*.H t +P Y )~ l (10.8) 

Ces quatre etapes sont utilisees a chaque nouvelle information de deplacement et de percep¬ 
tion, afin de mettre a jour I’estimation de I’etat du systeme. 
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Application dans le cas mono variable 


Pour montrer le fonctionnement intuitif de ce filtre, presentons son application dans un cas 
trivial: le cas ou I’etat du systeme est decrit par une variable scalaire X — x, de variance P t — c x 2 . 
Si on suppose de plus que I’observation permet d’obtenir directement la valeur de I’etat \Y t =y = x 
avec une variance Py — o v 2 , le gain du filtre s’ecrit simplement: 

rr * 2 

K = 


' + c. 


et I’equation de mise a jour devient: 


x* + 


+ Oy' 

2 




O x y + g/jc 

Of+Oy 2 


(10.9) 


( 10 . 10 ) 


La mise a jour revient done a faire une moyenne ponderee par la variance de la prediction 
et de I’observation. Cette moyenne donne plus d’importance a la valeur ayant la variance la plus 
faible et done la plus fiable (Figure 10.7). 



Figure 10.7- Illustration du filtre de Kalman dans le cas mono variable. La valeur estimee est 
la moyenne des valeurs predites et observees ponderees par leurs variances. Ici, I’estimation 
x est plus proche de x* qui une variance plus faible. 


Intuitivement, le filtre de Kalman va done accorder plus d’importance aux valeurs pour les- 
quelles I’incertitude est la plus faible et les privilegier lors de la mise a jour. En pratique ces 
variances sont souvent basees sur des estimations empiriques (notamment en robotique pour 
rodometrie et les capteurs). II faut done faire tres attention a ne pas sous-estimer ces incerti¬ 
tudes de mesure, car, dans ce cas, le filtre de Kalman convergerait vers ces mesures, ce qui 
peu conduire a une divergence du filtre si ces mesures ne sont pas reellement aussi fiable que 
I’estimation de covariance le laisse penser. 
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Le filtrage de Kalman etendu 

Le filtre presente dans la section precedente suppose des equations devolution et d’obser- 
vation lineaires, ce qui n’est pas le cas en robotique mobile des que Ton represente la direction 
du robot. Pour etendre le filtrage aux systemes non-lineaires, le filtre de Kalman etendu linearise 
simplement les equations grace a un developpement de Taylor. 

Partant des equations non lineaires suivante : 

X,+i = f(X t ,u t ) + &evo (10.11) 

Y t — h(X t ) + £ 0 bs (10.12) 

on utilise les matrices Jacobiennes A et H definies par: 

A ij =^ (10.13) 

dhj 

(10.14) 

Avec ces deux matrices Jacobiennes, le principe du filtre de Kalman reste exactement le 
meme, en remplagant simplement les equations du filtre de Kalman original par les equations 
suivantes : 


x; = f(x t , Ut ) 

(10.15) 

P;=A.P t ^.A r +B.Q.B T 

(10.16) 

Y? = h(X?) 

(10.17) 

k = p;h t . (H .p; .H t + P Y )- 1 

(10.18) 

X t+l =X t *+K(Y t -Y t *) 

(10.19) 

P t+l = p;-KHP* 

(10.20) 


Application a la localisation sans perceptual aliasing 


Supposons, a titre d’exemple, un robot dont on peut commander la vitesse de translation 
v et de rotation co. Letat que Ton cherche a estimer est simplement sa position dans le plan : 
X t — (x,y,0). Le vecteur de commande est u t — (v,co), ce qui conduit a I’equation devolution du 
systeme : 


f(X t ,u t ) 


x + v.dt.cos(Q ) 
y + v.dt .sin(Q) 


0 "T 0).dt 


Nous supposons de plus que le bruit entachant cette estimation est independant pour chaque 
variable et proportionnel aux vitesses : 


2 = 


Gt-v 0 0 

0 Gt-v 0 
0 0 g r . co 
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Supposons enfin que le systeme de perception permette de mesurer directement la position, 
par reference a la carte. L’equation d’observation sera simplement: 

x 

h(X t ) = y 

e 

et nous estimons un bruit constant sur cette mesure : 

Go 0 0 

Py = 0 G 0 0 

0 0 G 0g _ 

Les matrices Jacobiennes correspondant a ces equations, obtenues en derivant / et h sont 
done : 


1 

0 


sin(Q) 

0 

1 

cos(0) 

0 

0 


1 



' 1 

0 0 

H 

= 

0 

1 0 



0 

0 1 


Compte tenu du fait qu’ici H — I, I’algorithme du filtre de Kalman etendu se simplifie : 

m, Ut ) 

A.P,.A t +B.Q.B 7 

x; 

p;(p;+p Y )- ] 

X* +K(Y-X*) 

Pt-Kp; 

Pour (’initialisation de I’algorithme, nous supposons connaTtre une estimation de la position du 
robot: 


*o = Jo 

. . 

’ < 5*0 ° 0 

P Q = 0 Gy 0 0 

0 0 Ge 0 _ 

et nous appliquons les equations de mise a jour pour chaque nouveau deplacement ou 
chaque nouvelle perception. 


x; - 

p* _ 

r t ~ 

Y* _ 

1 t ~~ 

K = 
X t+i = 

Pt +1 = 
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Application a la localisation avec perceptual aliasing 

En cas de perceptual aliasing, plusieurs valeurs de la mesure proviennent de la phase d’ob- 
servation. II taut done choisir parmi ces valeurs la valeur correspondant a la position reelle du 
robot qui sera utilisee pour la mise a jour. 

Lorsque I’observation donne une mesure de la position, il est possible de selectionner sim- 
plement la mesure la plus proche de la position predite pour le robot. Dans le cas general, il est 
preferable d’utiliser la distance de Mahalanobis , qui est une mesure de distance normalisee par 
la covariance. Cette mesure permet par exemple de privilegier une mesure plus lointaine mais 
moins precise qui aura en fait une probability plus grande de correspondre a la mesure predite 
(Figure 10.8). 



Figure 10.8 - Illustration de I’interet de la distance de Mahalanobis. La mesure Y1 est plus 
proche de X en distance euclidienne mais les incertitudes font que ces mesures sont incom¬ 
patibles. La distance de Mahalanobis sera plus faible pour Y2 et X du fait que les incertitudes 
montrent que ces mesures peuvent provenir de la meme variable. 


Pour deux valeurs X et Y de covariances Px et P Y , cette distance vaut: 

d 2 = l -(X-Y) T (P x +P Y )-\X-Y) 

ce qui se traduit dans le cas scalaire par une simple ponderation par les variances : 


d 2 


(x-y ) 2 

2{o 2 + c 2 ) 


( 10 . 21 ) 


Dans le cas du filtrage de Kalman, cette distance est utilisee entre I’observation predite et les 
differentes observations faites sur le systeme : 

d 2 = ^(y* -Y) t (P y *+P y )-\Y* -Y) 

= l -(H.X* - y) t (h.p;.h t +P y )-\H.X* - Y) 
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a partir des distances de Mahalanobis des differentes observations a I’observation predite, il 
est possible de selectionner I’observation la plus proche ou de choisir un seuil qui permettra de 
determiner si une des observations correspond bien a I’etat courant. Si une des observation est 
en dessous de ce seuil, elle est utilisee pour la mise a jour du filtre, sinon, on considere que I’etat 
n’a pas pu etre mesure et on ne fait pas de correction de la prediction. 

Uune des principales faiblesses du filtre de Kalman pour la localisation provient precisement 
de cette phase d’identification (d’appariement) des elements pergus. En effet, en cas de mauvais 
choix du a une mauvaise prediction de la position du robot ou a une erreur de perception, I’erreur 
d’estimation de la position sera confirmee, voir augmentee. Un tel processus conduit rapidement 
a une divergence du filtre et a une perte de la position du robot. 

Le filtre de Kalman sans parfum (unscented) 


y f y f y f 





Figure 10.9 - Principe de fonctionnement du filtre de Kalman sans parfum, illustre sur un 
exemple mono dimensionnel. Le filtre etendu (EKF) peut conduire a de fortes erreurs pour 
des fonctions non-lineaires car il n’utilise que la moyenne et la derivee en ce point. Le filtre 
sans parfum (UKF) utilise plusieurs points pour estimer les parametres de la gaussienne 
transformee. 

La linearisation utilisee par le filtre de Kalman etendu peut poser probleme lorsque le modele 
est fortement non-lineaire ou lorsque les deplacements ou les erreurs de perception sont grandes. 
Dans certain cas, I’estimation de la covariance apres transformation peut etre tres mauvaise 
(Figure 10.9). Pour ces cas la, il existe une autre maniere de lineariser les equations qui conduit 
au filtre de Kalman "sans parfum" (Unscented) [74], 

Au lieu de lineariser I’equation non-lineaire autour de la moyenne de la variable, ce filtre utilise 
plusieurs point d’echantillonnage a partir de la gaussienne de depart, calcule leurs correspon- 
dants via I’equation non-lineaire et estime la variance de la gaussienne a partir de ces corres- 
pondants (Figure 10.9). Cette strategie permet une bien meilleure prediction de I’etat, que ce soit 
pour revolution ou I’observation et permet done d’etendre le domaine de fonctionnement du filtre 
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de Kalman pour traiter des problemes avec des mises a jour de plus grande ampleur. Elle est 
cependant plus couteuse en calcul que le simple EKF. 

10.3.4 Limitations du suivi de position 

Environnement reel ^Perceptions 

Donnees proprioceptives 

Estimation de la position avec une estimation initiale correcte 

b ~G~G 

Estimation initiale 

Estimation de la position avec une estimation initiale incorrecte 

Estimation initiale 

Figure 10.10 - La position estimee par le suivi de position depend fortement de /’estimation 
initiale de la position. Dans cet exemple, le robot mesure son deplacement dans un couloir (1 
et 3) dans lequel it detecte des portes (2 et 4) sans etre capable de les reconnaitre individuel- 
lement (Partie a). Le systeme de localisation va estimer la position du robot en integrant ces 
donnees. Si /'estimation initiale de la position est proche de la position correcte, le systeme 
de localisation sera capable d’estimer precisement la position reelle du robot (Partie b). Tou- 
tefois, si I’estimation initiale de la position est trop eloignee de la position reelle, le systeme 
fournira une estimation de la position qui n’est que localement optimale et ne correspondra 
pas a la position reelle (Partie c). 

La limitation principal de toutes ces methodes de suivi de position est qu’elles ne garan- 
tissent une bonne estimation de la position que localement, autour de I’estimation initiale de la 
position. En pratique, si cette estimation initiale est trop eloignee de la position reelle, ces mo- 
deles ne pourront pas estimer correctement la position du robot (cf. figure 10.10). Ces modeles 
ne garantissent done pas que la position calculee soit la position de la carte qui corresponde glo- 
balement le mieux aux donnees recueillies par le robot et done la position reelle la plus probable. 

Ce probleme prend toute son importance lorsque I’estimation de la position est perturbee a la 
suite d’informations proprioceptives ou de perceptions erronees. En effet, de telles informations 
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erronees peuvent faire diverger I’estimation de la position de telle maniere que le systeme soit 
par la suite incapable de retrouver une estimation correcte de la position. 

La position correcte du robot pourra cependant etre retrouvee par I’une des methodes de 
localisation globale decrites dans la section precedente. Cette position pourra ensuite etre utilisee 
comme nouvelle position initiale dans le processus de suivi de position. Toutefois, il est egalement 
possible d’utiliser une des methodes de localisation globale decrites dans la fin de ce chapitre qui 
permettent de ne plus dependre d’une estimation initiale correcte de la position. Cette seconde 
solution, qui ne requiert pas I’utilisation separee de deux methodes de localisation sera en general 
plus robuste, mais parfois moins precise. 


10.4 Suivi de plusieurs hypotheses 

La localisation globale, lorsque le robot est soumis au perceptual aliasing, ne peut se faire 
qu’en utilisant de maniere optimale les informations proprioceptives et les perceptions. Contraire- 
ment au suivi de position qui utilise I’estimation precedente de la position pour selectionner I’une 
des positions caracterisees par les perceptions et ignorer les autres, il faut tenir compte a chaque 
etape de toutes ces positions possibles. Ces positions conduisent a des hypotheses qui peuvent 
etre mises a jour en fonction des donnees proprioceptives et qu’il faut comparer, afin de choisir la 
plus pertinente a chaque etape (cf. figure 10.11). 


10.4.1 Suivi explicite de plusieurs hypotheses 

Ce suivi de plusieurs hypotheses peut etre realise de maniere explicite, en gerant une liste des 
hypotheses en question. Lorsque des donnees proprioceptives sont disponibles, chaque hypo¬ 
these est simplement mise a jour de maniere a refleter le deplacement du robot (cf. figure 10.1 1c). 
Lorsque de nouvelles perceptions sont disponibles, I’ensemble des positions de la carte suscep- 
tibles de correspondre a ces perceptions est determine. Cet ensemble est ensuite compare a 
I’ensemble des hypotheses. Si une hypothese correspond a une position pergue, cette hypothese 
est alors mise a jour en utilisant les perceptions par une methode similaire a celle permettant le 
suivi de position, par exemple un filtre de Kalman. Les positions pergues qui ne correspondent 
a aucune hypothese sont utilisees pour creer de nouvelles hypotheses associees a la position 
correspondante. La credibilite de chacune des hypotheses est ensuite evaluee, generalement en 
fonction de la proximite de I’hypothese avec une position correspondant aux perceptions du robot 
(cf. figure 10.1 Id). Ainsi, une hypothese verra sa credibilite augmenter si elle est proche d’une 
des positions correspondant aux perceptions du robot, elle la verra diminuer dans le cas contraire. 
De nouvelles hypotheses peuvent egalement etre ajoutees pour les positions correspondant aux 
perceptions qui ne correspondent a aucune hypothese existante. 

De tels modeles ont ete implements en utilisant des cartes topologiques [37] ou les diffe- 
rentes hypotheses correspondent a differents noeuds de la carte. II existe egalement des modeles 
de ce type utilisant des cartes metriques [ 1 0, 73]. Ces derniers modeles utilisent en general plu¬ 
sieurs filtres de Kalman en parallele et permettent de resoudre en grande partie les problemes de 
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Environnement reel 


Perceptions 

i \ 

1 — 3 

0^0 


Utilisation de la perception 1 


Donnees proprioceptives 

O 0-23 Q 0,25 

_ t _L___ 


00,25 

00,25 

Hypothese de position Credibilite de I’hypothese 

Utilisation des donnees proprioceptives 2 



o °’ 33 

0 0- 33 


0 0,33 

Utilisation de la perception 3 

0 0,08 Q 0,1 

0 0,04 

0 0,08 

# 0,7 


Figure 10.11 -Le suivi de plusieurs hypotheses permet de determiner la position au sein de 
la carte qui globalement correspond le mieux aux donnees recueillies par le robot. Dans cet 
exemple, le robot est capable d'estimer son deplacement dans un couloir (2) dans lequel il 
detecte des portes (1 et3) sans etre capable de les reconnaltre individuellement (Partie a). La 
perception d’une porte sans aucune estimation prealable de la position permet simplement 
de creer plusieurs hypotheses de position pouvant correspondre a cette perception. II est, 
a ce stade impossible de decider quelle hypothese est correcte (Partie b). L’integration des 
donnees proprioceptives permet de mettre a jour la position de chacune des hypotheses, mais 
ne permet pas de les discriminer (Partie c). Des nouvelles perceptions permettent d’estimer la 
credibilite relative de chacune des hypotheses en rendant plus credibles les hypotheses dont 
la position correspond aux perceptions courantes et moins credible les autres. (Partie d). 
L’hypothese ayant alors la plus forte credibilite correspond a la position qui rend le mieux 
compte des donnees recueillies par le robot. 
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divergence du filtre de Kalman employe seul. Cette technique est connue sous le nom de multi 
hypothesis tracking (MHT) [73]. 


10.4.2 Le filtrage Bayesien 


Les methodes de localisation multi-hypotheses peuvent etre vues dans un cadre plus large, 
celui du filtrage Bayesien. Cette methode de filtrage permet d’integrer de maniere similaire les 
deux types d’informations (odometrie et perceptions), mais ne gere en general pas explicitement 
les hypotheses de position. Les differentes hypotheses sont ici remplacees par une distribution 
de probability de presence du robot sur I’ensemble des positions possibles de la carte. Cette 
representation permet done de considerer chacune des positions au sein de la carte comme une 
position possible du robot dont il faut evaluer la probability. Nous presentons d’abord le cadre 
general qui permet la gestion de cette distribution de probability, avant de voir comment il peut 
etre utilise en pratique dans des cas discrets ou continus. 

Le filtrage Bayesien regroupe un ensemble de methodes d’estimation d’etat utilisant les pro- 
babilites et plus particulierement la loi de Bayes : 


P(X\Y ) 


p(y\x)p(x) 

W) 


( 10 . 22 ) 


Dans le cadre de la localisation en robotique mobile, X est en general la position et Y une 
perception de I’environnement. Cette loi nous permet done d’estimer la probability P(X\Y) des 
positions, connaissant une perception, e’est a dire precisement ce que nous cherchons a calcu- 
ler pour localiser un robot. Pour ce calcul, nous aurons besoin de P(Y\X), la probability d’une 
perception connaissant la position, qui peut etre calculee grace a la carte de I’environnement 
et au modele du capteur utilise. Nous aurons egalement besoin d’une estimation des probabili- 
tes des positions P(X) avant cette perception, ainsi que de la probability globale P(Y ) de cette 
perception. Dans un filtre Bayesien, cette formule est utilisee de maniere recursive et P(X) est 
done simplement I’estimation precedente de la probability des positions. Quant a P(Y), il peut 
etre remplace par un artifice de calcul lors de I’utilisation de la formule. En effet, par la loi des 
probabilites marginales : 


PfX) = EniWM 


ce qui permet d’utiliser la loi de Bayes pour calculer les probabilites P(X\Y) de la maniere sui- 
vante : 


VX,temp x \Y 

P(Y) 

VX,P(X\Y) 


P{Y\X)P(X) 

Y, tem PX\Y 

X 

temp x \ Y 

P{Y) 


Dans cette equation, le terme P(X) est la probability a priori (prior e n anglais), P(X\Y) est la 
probability a posteriori (posterior en anglais). La puissance de cette equation reside dans le fait 
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qu’elle permet de transposer une quantite simple a evaluer, P(Y\X), en une quantite plus difficile 
a estimer et qui nous interesse, P(X\Y). La vraisemblance P(Y\X) est simple a evaluer car elle 
est le produit d’un raisonnement causal : connaissant une carte, un modele de capteur et une po¬ 
sition, on peut facilement prevoir les mesures que devraient renvoyer ce capteur. P(X\Y), pour sa 
part, est le fruit d’un raisonnement de diagnostic et il est difficile a evaluer car une perception Y ne 
permet pas de definir simplement une position, mais peut correspondre a plusieurs, notamment 
dans le cas du perceptual aliasing 3 . 

Nous venons de voir comment la loi de Bayes permet de mettre a jour une probability de 
position en fonction d’une perception. Pour la localisation d’un robot mobile, il faut egalement 
pouvoir integrer I’effet d’un deplacement sur une distribution de probability. Cela se fait aussi tres 
simplement grace a I’equation suivante (loi des probabilites marginales) : 

P(X\U) = Y, p ( x \ u X) p ( x ') (10.23) 

x' 

Dans cette equation, P(X\U,X') est un modele du deplacement du robot, qui donne la proba¬ 
bility d’une position X si le robot execute Taction U dans la position X’. Ce modele ne depend 
que du robot et correspond souvent au modele d’odometrie que nous avons vu au debut du 
cours. Comme precedemment, la probability a priori, P(X'), est le fruit d’une estimation a I’etape 
precedente. 



Figure 10.12 - Illustration des dependences considerees pour la localisation d’un robot a 
partir d’une suite de perceptions et de deplacements. Une fleche indique que la valeur a la 
pointe depend de la valeur a I’origine. 

Pour localiser un robot, nous cherchons evidement a estimer la position a partir de nombreux 
deplacements et de nombreuses observations : P(x t \ui,y 2 , x t -i). Pour pouvoir realiser 

les calculs de maniere recursive, I’hypothese de Markov est utilisee : on suppose que les percep¬ 
tions ne dependent que de I’etat courant et que la position apres un deplacement ne depend que 
de la position precedente. Ceci est illustre par le reseau bayesien de la figure 10.12 qui montre 
les dependances entre variables et correspond aux simplifications suivantes : 

P(y t \x t ,u u y 2 ,...,u t -i) = P(y t \x t ) 

P(x t \ui,y 2 ,...,u t -i,x t -i) = P(x t \u t -i,x t -i) 

3. Ceci est tres general et tout a fait intuitif. Dans le domaine medical, par exemple, il est simple de prevoir de la 
fievre (I’observation) si I’on sait que I'on a la grippe (I’etat). Le raisonnement inverse est plus difficile car la fievre peut 
correspondre a plusieurs maladies. 
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Partant de ces differents elements, le filtrage Bayesien permet done d’estimer de maniere 
recursive I’etat d’un systeme a partir d’une estimation de son evolution et de mesures sur cet etat. 
Pour pouvoir appliquer ce filtrage, nous avons besoin des elements suivants, qui sont tous connus 
ou qui peuvent etre definis grace aux modeles du robot, des capteurs et de I’environnement: 

- Un modele d’observation (de capteur) P(y\x ) qui donne, pour une position jc donnee, la 
probabilite de la mesure y. 

- Un modele devolution (d’action) P(x\u,xf) qui donne la probabilite que le robot arrive en jc 
si il execute Taction u en x'. 

- Une suite d’actions et de perceptions u\,y2, ...,u t -i,y t . 

- Une estimation initiale de la position Pq (x), qui peut, par exemple, etre uniforme dans le cas 
de la localisation globale ou qui peut etre une repartition gaussienne si nous connaissons 
la position initiale du robot. 

Le filtre permet d’estimer la position en fonction des donnees mesurees 
P(x t \ui,y2,...,u t -i,y t ), ce que nous noterons par la suite (en version continue) Bel(x t ) (de 
I’anglais Belief State). Lequation de mise a jour recursive permet alors d’estimer Bel(x t ) en 
fonction de Bel(x t ~ 1 ). Cette equation se derive de la maniere suivante, en utilisant les loies 
presentees ci-dessus : 


Bel(x t ) = P(x t \ui,y2,...,u t -i,y t ) 

(Bayes) = r\P(yt\x t ,ui,y 2 , ...,u t -i)P(x t \ui,y 2 , —,u t -i) 
(Markov) = r[P(y t \x t )P(x t \ui,y2,...,u t -i) 



(probtotales) = r\P(y t \x t ) / P(x t \ui,y2,...,u t -i,Xt-i)P(xt-i\ui,y2,...,u t -i)dxt-i 


(Markov) = r[P(y t \x t ) / P(x t \ut-i,x t -i)P(x t -i\u l ,y2,...,u t -i)dx t -i 


Pour resumer, I’estimation de I’etat par un filtre Bayesien correspond a I’utilisation de I’equa- 
tion de mise a jour suivante, pour une perception y t et un deplacement u t ~ 1 : 



(10.24) 


Le filtrage Bayesien regroupe en fait un grand nombre d’approches connues sous des noms 
differents qui se differentient par la maniere dont la distribution de probabilite Bel(x t ) est re¬ 
presentee (figure 10.13). Le filtre de Kalman est par exemple une implantation de ce filtre avec 
des distributions de probabilites gaussiennes et des modeles lineaires. Le filtre de kalman multi¬ 
hypotheses correspond a une representation sous forme de somme de gaussiennes. Nous allons 
voir dans la fin de ce chapitre deux autres methodes qui utilisent soit une representation discrete 
soit une representation sous forme d’un ensemble d’echantillon. Dans ce dernier cas, le filtre 
s’appelle le filtre particuiaire. 
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Filtrage de Kalman 




Somme de gaussiennes : 
Multiple Hypothesis Tracking 



Figure 10.13 - Le filtrage Bayesien correspond a differents algorithmes en fonction de la 
maniere dont sont representees les probabilites. 


Representer la position du robot par une telle distribution de probabilites permet d’integrer la 
totality des informations recueillies au cours du temps. Elle est mise a jour, d’une part a chaque 
deplacement du robot, et done a chaque nouvelle donnee proprioceptive, et d’autre part a chaque 
nouvelle perception. De maniere imagee, les donnees proprioceptives permettent de deplacer 
les probabilites d’une position a une autre pour refleter le deplacement du robot. Les perceptions 
permettent de moduler les probabilites de chaque position. Ainsi, les positions pour lesquelles 
les perceptions prevues a I’aide de la carte sont similaires aux donnees pergues voient leurs 
probabilites augmenter, tandis que les autres voient leurs probabilites diminuer. 

Lorsqu’on utilise une telle distribution de probability, la position du robot calculee est en ge¬ 
neral donnee par I’hypothese ayant la plus forte probability [66, 69, 125, 127, 24, 49]. Cependant 
d’autres estimations telles que la moyenne des positions ponderees par leurs probabilites peuvent 
etre utilisees [27], ou des versions intermediates telle que la moyenne des x% des meilleurs po¬ 
sitions. 


La distribution de probabilites obtenue depend faiblement des conditions initiales et peut done 
etre initialisee a une distribution uniforme lorsqu’aucune information n’est disponible sur la posi¬ 
tion du robot. La position sera alors retrouvee, meme si le robot est soumis a un tres fort percep¬ 
tual aliasing, assurant ainsi la localisation globale du robot dans tous les environnements. Ces 
methodes sont extremement robustes en pratique et mettent en oeuvre un systeme de localisation 
completement autonome, ne dependant d’aucune intervention exterieure [133]. 
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Ces qualites reposent toutefois de maniere importante sur le fait que la carte de I’environ- 
nement est complete. En effet, les systemes de suivi de plusieurs hypotheses necessitent une 
estimation correcte des probability des differentes positions possibles. Or une carte partielle de 
I’environnement rend une telle estimation a partir des perceptions difficile. Pour cette raison, ces 
systemes sont en general utilises pour la localisation sur des cartes construites dans une phase 
prealable. 


10.4.3 Filtrage Bayesien dans le cas discret 

Pour appliquer le filtrage Bayesien que nous avons presente dans le cas continu, il faut choisir 
une maniere de representer les distributions de probability. Une premiere approche consiste a 
discretiser I’environnement et a donner a chaque position discrete une probability approximant la 
valeur de la distribution continue. Cette approche a ete utilisee a la fois avec des cartes topolo- 
giques ou les nceuds sont utilises comme positions possibles, [27, 66, 69, 79,106, 108,125, 127, 
130] et avec des cartes metriques, pour lesquelles il est possible de discretiser I’ensemble des 
positions, a la maniere des grilles d’occupation [24, 49, 33]. 

Algorithm 10.1 - Procedure UpdatePerception(Bel(xj),y); 


1: T| = 0 

2 : for all Xj do 

3 : Bel'(xi) = P(y\xj)Bel(xi) 

4: r| = T| +Bel\xi) 

5 : end for 
6: for all Xj do 

7 : Bel' (xj) = Bel' (xj)/r\ 

8: end for 

9: Return Bel'{xj) 


Algorithm 10.2 - Procedure UpdateMouvement(Bei(xi),u) I 

i: for all Xj do 

2 : Bel'{xj) = £ Xk P{x t \u,x k )Bel'{x k ) 

3 : end for 

4: Return Bel'(Xj) 

Quelle que soit la discretisation choisie, I’algorithme reste le meme. II s’agit d’evaluer la pro¬ 
bability Bel{xj) que le robot soit situe sur I’etat Xj de la carte. Ceci est fait par deux procedures 
differentes selon que Ton cherche a integrer une perception ou des donnees proprioceptives. Pour 
une perception, on utilisera la procedure de I’algorithme 10.1 . Les probabilites P(y\xj) proviennent 
soit d’un modele de capteur metrique pour les grilles d’occupation, soit d’un modele comparant 
une perception avec les donnees memorisees dans les noeuds pour la carte topologique. Pour 
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un deplacement on utilisera I’algorithme 10.2. La figure 10.14, tiree de [48] montre un exemple 
devolution de la probability de position d’un robot. 



Carte Donnees sonar + odometrie 



Evolution des probability 


Figure 10.14 - Exemple devolution de la probability de position au cours du temps. Figure 
tiree de [48]. 


Limplantation naive de cet algorithme conduit a une mise a jour quadratique en fonction du 
nombre d’etats (O(Ns)), ce qui peut etre rapidement lourd a calculer. Cependant, le modele proba- 
biliste de deplacement P(x\u,x') est en general nul des que Ton s’eloigne de la position specifiee 
par la commande u depuis I’etat/. Si Ton note p le nombre d’etats pour lequel le modele est non 
nul, on peut facilement ecrire un algorithme en O(np), qui est done lineaire en le nombre d’etats 
de la carte. 


10.4.4 Filtrage particulaire 

II est egalement possible d’utiliser une autre methode pour representer une distribution de 
probability continue sur I’espace de la carte [ 6] sans discretisation de la carte. Cette methode, 
le filtrage particulaire est I’une des plus efficaces pour la localisation. 

Pour representer la distribution de probability Bel(x), cette methode utilise un echantillonage 
en un ensemble de particules qui permet d’approcher la distribution. En effet, considerons que la 
position du robot est la position moyenne define par la distribution de probability Bel(x ) : 

Position = x.Bel(x)dx 
J X 

Supposons par ailleurs que Ton soit capable de generer un ensemble de N echantillons de po¬ 
sition 0,, que nous appellerons particules, selon la distribution de probability Bel(x) (Figure 10.15 
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e 0 

Figure 10.15 - Gauche : Illustration de la methode de representation d’une distribution de 
probabilite par des particules. Les particules sont tirees aleatoirement selon la loi a repre¬ 
senter. Droite : Illustration de la methode de representation d’une distribution de probabilite 
par des particules tirees selon une loi d’importance. Les particules sont tirees aleatoirement 
selon la loi n et ont chacune un poids associe w = f/n. 


gauche). On peut alors approcher la position par: 


Position ~ 



C’est cet ensemble de particules qui va permettre de representer la distribution de probabilites 
de positions du robot. Tout le probleme revient alors a etre capable de generer recursivement un 
ensemble de particules reparties selon la loi Bel{x). 

Dans notre cas, il est evidement impossible a priori de generer de tels echantillons car Bel(x) 
est une distribution inconnue que nous cherchons a evaluer. Pour pouvoir neanmoins approcher 
cette fonction, nous allons introduire une fonction auxiliaire tc(jc), appelee fonction d’importance 
selon laquelle nous allons tirer nos particules. En effet, avec de telles particules, reparties selon 
une loi 7c(jc), il est egalement possible d’approcher Bel(x). Pour cela, nous commengons par 
ecrire : 

Belix ) = — -^~Ji(x) = w(x)n(x) 

7t(x) 


avec 


w(x) 


Bel(x) 

k(x) 


et done, si nous generons les echantillons aleatoires 0, selon la fonction d’importance n (connue 
car nous I’avons choisie), nous pouvons estimer la position par: 


Position 


x.Bel{x)dx — f x.w(x)n(x) ~ — ^w(0,-)0/ 
t J x xy ; 


Ainsi la distribution Bel(x) peut s’approcher sous la forme d’un ensemble de particules tirees 
selon une loi tc(jc), chaque particule ayant un poids associe w(x) (Figure 10.15 droite). La diffi¬ 
culty d’echantillonner selon Bel{x) reste cachee dans la difficulty de calculer le poids de chaque 


Robotique Mobile - david.filliat@ensta-paristech.fr 


128 
















CHAPITRE 10. LOCALISATION 


particule w(x), mais grace a un choix judicieux de k(x) nous pouvons arriver a rendre ce calcul 
possible en utilisant I’equation de mise a jour du filtrage Bayesien. 

En effet, dans le cas qui nous interesse : 

Bel(x t ) =T\P(y t \x t ) JP(x t \u t -i,x t -i)Bel(x t -i)dx t -i (10.25) 


en choisissant (intelligemment) k(x) — f P(x\u t -\,x t -\)Bel{x t -\)d.x t -\, nous obtenons : 


w(0) 


Bel t { 9) 

71(0) 

r(P(y r |0)/P(0|M ? _i, x^Bel,^ i (*) dx 


f P(Q\ut-i,x t -i)Bel(x t -i)dxt-i 

r|P(^|0) 


Cette valeur est simple a calculer car elle ne depend que de la carte et du modele de capteurs 
pour la position d’un echantillon 0. 



Figure 10.16 - Illustration de la mise a jour de /’ensemble des particules en utilisant les 
deplacements. 

Le probleme du calcul des poids est done regie avec ce choix de ti(jc) = 
fP(x\ut-i,x t -i)Bel(x t -i)dxt-i. Reste a voir comment il est possible d’echantillonner des par¬ 
ticules selon cette loi. Comme nous utilisons une methode recursive, Bel{x t ~ i) est approchee 
sous la forme d’un ensemble de particules 0,_i, chacune associee a un poids w t -\. A partir de 
ces particules, I’echantillonnage selon tc(jc), se deroule en deux etapes : une mise a jour selon le 
modele devolution P{x\u t -\,x t -\), puis un re-echantillonnage des particules pour correspondre 
a la loi tc(jc) . 

Pour la premiere etape, les particules sont mises a jour a partir du modele de deplacement 
en tirant de maniere aleatoire, pour chaque particule 0,, une particule 8,- selon la loi P(x\u t -i,di). 
L’ensemble des 8 ; - represente alors la distribution / P(x\u t -i,x t -i)Bel(x t -i)dx t -i, mais la fonc- 
tion d’importance selon laquelle ils sont repartis n’est pas celle que nous voulons (Figure 10.16). 
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y=w; 

v 2 =w 2 

V,= W 3 

v«=w 4 

v 5 =w 4 

v 6 =w, 


Figure 10.17 - Illustration de la methode d’echantillonage. L’ensemble de particules w est 
re-echantillonne en /’ensemble v. 


La seconde etape a pour but d’obtenir un echantillonnage selon la fonction d’importance 
fP(x\u t -i,x t -i)Bel(xt-i)dx t -i. Pour cela, il taut re-echantillonner, ce qui peut se faire selon 
une methode appelee Stochastic universal sampling [ ]. Cette methode consiste a choisir N 
particules 8, selon des points equi-repartis sur un cercle sur lequel sont disposes I’ensemble 
initial des particules selon des secteurs angulaires de taille proportionnelle a leur poids (Figure 
10.17). Cette methode permet de multiplier les particules qui ont des poids eleves, et de reduire 
le nombre d’echantillons correspondant aux particules de poids faibles (Figure 10.18). 

Algorithm 10.3 - Procedure Filtrage Particulaire(h l t x ,w\~ l ,u,y); 


i: for all i do 

2 : Tirer une particule 8, selon la loi P(.x;|«,0.~ 1 ) 

3: end for 

4: re-echantillonner les particules 8, selon les poids w- -1 . 

5: r| = 0 

6 : for all i do 

7: Calculer le poids w\ — p{y\§i) 

8: T|=T|+W; 

9: end for 
10: for all i do 

11 : Normaliser les poids w\ — w\/r[ 

12: end for 

13: Return 0- = 8/, w\ 

En resume, la localisation par filtrage particulaire s’effectue selon I’algorithme 10.3, et est 
illustre sur la figure 10.19. Intuitivement, I’algorithme permet de concentrer les particules dans les 
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0 


Figure 10.18 - Illustration de I’effet de la methode de re-echantillonnage. Les particules 
ayant initialement un poids fort conduisent a des zones de particules plus denses. Les parti¬ 
cules ayant initialement un poids faible conduisent a des zones de particules moins denses. 


zones de plus fortes probability, ou elles auront des poids plus fort. C’est un algorithme au final 
extremement simple et particulierement robuste. 

Cette version de base demande cependant un reglage relativement precis des parametres, 
notamment des modeles probabilistes de perception et de I’odometrie pour donner des resultats 
satisfaisant. 

Le nombre de particules utiles pour approcher correctement la probability de position peut 
egalement etre relativement delicat a choisir. En effet, si il y a trop peu de particules, les zones de 
fortes probability risquent de ne pas etre bien representees et le re-echantillonnage ne permettra 
pas de concentrer les particules autour de la position la plus probable, et le filtre ne convergera 
done pas. On parle alors de rarefaction des particules.Ce probleme est d’autant plus important 
pour la localisation globale, pour laquelle les particules sont initialisees aleatoirement sur tout 
I’environnement. Si il n’y a pas initialement de particule proche de la position reelle du robot, le 
filtre ne pourra pas la decouvrir. 

Augmenter le nombre de particules permet en general de resoudre le probleme, mais aug- 
mente proportionnellement le temps de calcul, ce qui est rapidement problematique. II existe done 
de nombreuses variantes et ameliorations de la methode, qui permettent par exemple de selec- 
tionner automatiquement le nombre de particules optimal pour fournir une approximation correcte 
de la position [50], ou de realiser des mises a jour partielles pour respecter un temps de calcul 
limite [85]. 
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Position a t-1 


Particules a t-1 




Position a t 


Mise a jour par le 
deplacement 


J_L 


J_L 


J_L 


J_LL 


J_L 


Re-echantillonage 


±1 


J_L 


J_L 


J_L 


Mise a jour par les 
perceptions 


Figure 10.19 - Illustration du fonctionnement de I’algorithme de filtrage particulaire. Les 
particules se concentrent autour des positions de plus forte probabilites. 
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10.5 Comparaison des methodes de localisation 

Le tableau de la figure 10.20 resume les grandes caracteristiques et compare les differentes 
methodes de localisation presentees dans ce cours. 



Topologique 

hypothese 

unique 

Topologique 

hypotheses 

multiples 

Metrique 
Filtre de 
Kalman 

Metrique 

Multi 

Kalman 

Metrique 

Filtres 

particulaires 

Modeles 

de 

senseur 

Quelconque 

Quelconque 

Gaussien 

Gaussien 

Quelconque 

Capacite 

de 

localisation 

Suivi 

Global 

Suivi 

Global 

Global 

Consommation 

Memoire 

++ 

++ 

+ 

+ 

++ 

Consommation 

Calcul 

+ 

++ 

+ 

++ 

++ 

Simplicite 

d’lmplementation 

++ 

+ 

+ 

_ 

++ 

Precision 

- 

- 

++ 

++ 

+ 

Robustesse 

+ 

++ 

- 

+ 

++ 


Figure 10.20- Comparaison des methodes de localisation. 


Les methodes topologiques sont en general assez simples a implanter puisqu’il s’agit essen- 
tiellement de creer une procedure de comparaison de perceptions. Cependant, pour obtenir une 
robustesse correcte, cette procedure doit neanmoins etre faite avec soin et peut devenir com- 
plexe. La localisation directe a partir des seules perceptions est difficile a envisager dans des 
environnements non triviaux. L’ajout de suivi multi-hypotheses dans ce cadre permet cependant 
d’ameliorer la robustesse de maniere assez simple. Les cartes topologiques conduisent cepen¬ 
dant a une localisation relativement imprecise et demandent un certain nombre de comporte- 
ments sensori-moteurs efficaces pour les deplacements entre lieux. Un des gros inconvenients 
des cartes topologiques, comme nous le verrons plus loin, se situe plutot au niveau de leur crea¬ 
tion, qui peut etre complexe a automatiser. 

Concernant les methodes metriques, le filtre de Kalman connaTt un grand succes mais peut 
etre difficile a regler et risque de diverger. L’utilisation de multi-Kalman permet d’ameliorer sensi- 
blement les choses et donne une tres bonne precision, mais conduit a des implantations assez 
complexes et difficiles a maTtriser. Les filtres particulaires sont une bonne solution, en particulier 
pour leur robustesse et leur simplicite d’implantation, mais peuvent aussi etre difficiles a regler et 
lourds en temps de calcul. 
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Chapitre 11 
Cartographie 


Ce chapitre presente differentes methodes de cartographie selon une classification person- 
nelle en fonction de la capacity de ces methodes a revenir ou non sur les donnees passees. 


11.1 Les problemes de la cartographie 

11.1.1 Limitation des methodes de localisation 

Comme nous I’avons explique dans le chapitre 8 la cartographie est indissociable de la locali¬ 
sation, ce qui implique de disposer d’une methode de localisation robuste pour esperer avoir une 
carte correcte. Ceci est le principal probleme lors de la phase de cartographie, car une localisation 
correcte repose en general sur une bonne carte de I’environnement. 

La tache de cartographie est done intrinsequement plus complexe que celle de localisation. En 
effet, la localisation revient a rechercher, parmi les positions possibles representees dans la carte, 
celle qui correspond le mieux a la position courante du robot. Cette recherche se deroule done 
dans un espace ferme, car on postule que la position recherchee se trouve parmi les positions 
enregistrees dans la carte. Dans le cas de la cartographie, une difficulty importante provient du 
fait que I’estimation de la position du robot se deroule dans un espace ouvert, puisque le robot 
peut decouvrir des zones encore inconnues. De plus cet espace est de faible dimension pour 
la localisation (3 en general), tandis que la construction de la carte se deroule dans un espace 
de beaucoup plus grande dimension. Par exemple, pour une carte de N amers 2D, il y aura 
2 N parametres. Or que ce soit pour la cartographie ou la localisation, les donnees disponibles 
(odometrie et perceptions) restent les merries, et il faudra done mieux les exploiter pour construire 
une carte. 

Lincompletude de la carte rend de plus la plupart des methodes de localisation globale pre- 
cedemment evoquees difficiles a utiliser car elles supposent une comparaison des probabilites 
des differentes hypotheses de position. Or avec une carte en cours de construction, le robot peut 
se situer dans une zone qui n’est pas encore cartographiee et il sera done impossible d’evaluer 
la probability de cette position. La plupart des systemes reposent done sur une methode de loca¬ 
lisation qui realise un suivi de position. En effet, si le robot atteint un lieu qui n’est pas represente 
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dans la carte, il est possible, grace a ces methodes locales, de definir sa position par rapport a 
une position precedente connue au sein de la carte. 

11.1.2 Fermetures de boucles 



Figure 11.1 - Un exemple simple d’environnement contenant un cycle. 

Lutilisation de systemes de localisation effectuant un suivi de position lors de la cartographie 
pose cependant certains problemes car, comme nous I’avons vu au chapitre precedent, ces me¬ 
thodes peuvent diverger et conduire a une estimation erronee de la position sans possibility de 
retrouver la position reelle du robot. Ce probleme est particulierement important au cours du pro¬ 
cessus de cartographie car les erreurs de localisation conduisent a des mises a jour erronees de 
la carte, ce qui peut conduire a des erreurs durables dans les futures tentatives de localisation. 

Ces erreurs sont cruciales dans les environnements cycliques, c’est-a-dire dans des environ- 
nements contenant des boucles dont les differentes parties ne sont pas toutes visibles par les 
capteurs les unes a partir des autres (cf. figure 11.1). En effet, dans de tels environnements, 
les erreurs de cartographie durant le parcours du cycle peuvent empecher la reconnaissance de 
la fermeture du cycle et conduire a des cartes a la topologie erronee (cf. figure 11.2). II existe 
d’ailleurs des algorithmes specialement adaptes a la detection de fermetures de boucles afin de 
pouvoir corriger ce type d’erreurs [ ]. 

11.1.3 Cartographie incrementale et retour en arriere 

Un autre probleme important de la cartographie est le choix de la representation utilisee pour 
memoriser les informations qui serviront par la suite au robot. Nous avons deja presente les 
reponses a ce probleme en presentant les diverses structures de cartes, mais il faut garder a 
I’esprit que le choix de cette structure a une grande influence sur la quality du processus de 
cartographie. Le choix de la representation va determiner la possibility de faire ou non des mises 
a jour globales et efficaces lorsque de nouvelles informations sont disponibles. 

On peut distinguer deux grandes categories de methodes de cartographie. La cartographie 
incrementale [ 134 ] constitue une premiere methode simple de construction de carte. Elle permet 


Robotique Mobile - david.filliat@ensta-paristech.fr 


136 












CHAPITRE 11. CARTOGRAPHIE 



Figure 11.2-Lorsque la position du robot est estimee par une methode de suivi de position, 
les erreurs s’accumutent pendant le parcours d’un cycle. Lors de la fermeture de ce cycle, le 
systeme peut alors etre incapable de reconnaitre la position initiale du robot, ce qui conduit 
a une carte incorrecte, dans le cas topologique (partie gauche) comme dans le cas metrique 
(partie droite). 


simplement d’ajouter localement de nouvelles informations dans la carte a partir de I’estimation 
courante de la position du robot. Cependant, si cette estimation se revele fausse a posteriori, il 
est impossible de revenir sur les modifications qui ont ete effectuees. Cette limitation se revele 
problematique dans les environnements contenant des cycles parce que la fermeture d’un tel 
cycle donne une information importante sur les erreurs des estimations precedentes de la po¬ 
sition du robot. Cette information est ignoree par les systemes de cartographie incrementale et 
conduit, dans le cas d’environnements cycliques a des cartes dans lesquelles les erreurs vont se 
concentrer dans une petite zone (cf. figure 11.2 et 11 .3). 

La cartographie incrementale constitue la methode de base de nombreux systemes utilisant 
des cartes topologiques. Cette methode est egalement utilisee pour la creation de grilles d’occu- 
pation que nous decriront plus loin. 

La seconde categorie de systemes de cartographie regroupe les systemes qui permettent 
d’integrer des informations a posteriori sur les positions passees du robot (figure 11.3). II faut 
noter que I’integration de donnees a posteriori sur les positions passees est relativement simple 
dans les cartes topologiques grace a la separation des donnees proprioceptives et des percep¬ 
tions que cette representation implique. En effet, des erreurs dans I’estimation de la position du 
robot n’influent que sur les informations memorisees dans les liens de la carte, et non sur les 
perceptions qui sont memorisees dans les nceuds. Ainsi, revenir sur une modification passee de 
la carte, lorsque des nouvelles informations sur la position du robot sont disponibles, requiert 
simplement de modifier les informations memorisees dans les liens et ne concerne pas les per¬ 
ceptions memorisees. Dans le cas des cartes metriques, la modification d’une position passee 
va avoir des repercussions sur les perceptions (via le modele metrique) et va done rendre les 
modifications dues aux retours en arriere assez profondes. Pour permettre de tels retours en 
arriere, il faut alors utiliser un moyen de memoriser les perceptions en les reliant a la position 
depuis laquelle elles ont ete pergues. Cela peut se faire en memorisant les perceptions indepen- 
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Cartographie incrementale Cartographie avec retour en arriere 

Figure 11.3 - Illustration des capacites de cartographie sur une carte topologique. En bas a 
gauche, la cartographie incrementale ne fera que des corrections locales tors d’une fermeture 
de boucles. En bas a droite, une methode de cartographie avec retour en arriere pourra 
potentiellement corriger toute la carte pour reduire les erreurs. 


damment (des scans lasers par exemple), mais n’est pas possible pour certaines representations 
(notamment les grilles d’occupation). 


11.2 Cartographie incrementale 

Les modeles de cartographie incrementale utilisent done une methode de suivi de position 
pour estimer la position du robot par rapport a la carte existante. Au vu de cette position, si 
la carte ne represente pas le lieu ou les objets pergus par le robot, ceux-ci sont ajoutes a la 
carte. En revanche, si ce lieu est deja represente, la carte est adaptee en fonction des nouvelles 
perceptions. 

11.2.1 Cartes Topologiques 

Pour construire une carte topologique, nous commengons done par estimer la position du 
robot. Dans les cartes topologiques sans perceptual aliasing [124, 25, 93, 51 , 146, 55, 1 0], il suffit 
de comparer les perceptions courantes avec les donnees memorisees dans chacun des noeuds 
de la carte. Si aucun des noeuds ne correspond suffisamment bien aux donnees courantes, cela 
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signifie que le lieu n’est pas represente dans la carte et qu’il devra done etre ajoute. Au contraire, 
si la similitude des donnees courantes avec un noeud de la carte est suffisante, ce noeud sera 
reconnu comme la position courante du robot. Le choix entre ces deux alternatives est le point 
difficile du processus de cartographie. En effet, dans le cas de la simple localisation, il suffit de 
trouver le noeud correspondant le mieux a la situation courante pour trouver la position du robot. 
Dans le cadre de la cartographie, il faut de plus utiliser un seuil pour decider si le lieu le plus 
similaire est la position courante du robot ou non : si la similitude est superieure a ce seuil, le 
noeud est reconnu, sinon un nouveau lieu est cree. Cette utilisation d’un seuil rend le processus 
de cartographie potentiellement plus instable que la localisation seule. 

Lorsque le perceptual aliasing e st pris en compte, percevoir un lieu different de tous les lieux 
memorises dans la carte permet toujours de conclure que ce lieu est nouveau. Mais des per¬ 
ceptions qui correspondent a un lieu deja memorise ne sont pas suffisantes pour determiner si 
le lieu est nouveau ou s’il est connu car un lieu nouveau peut etre similaire a un lieu deja visite. 
La position precedente du robot doit done etre prise en compte pour determiner si un lieu est 
nouveau ou s’il correspond a un noeud memorise. Si la position predite par I’odometrie depuis le 
lieu precedent ne correspond pas au lieu deja memorise, le lieu est considere comme nouveau et 
ajoute a la carte [82, 43, 84, 145, 83, 142, 105, 12]. Certains modeles integrent directement les 
informations perceptuelles et la position pour la reconnaissance des nceuds, se ramenant ainsi 
au cas ou il n’y a pas de perceptual aliasing [6, 137, 33, 98]. 

Une fois le noeud reconnu ou cree, les perceptions sont utilisees pour corriger les donnees 
memorisees dans ce noeud. Cela permet d’avoir une meilleure estimation des perceptions carac- 
terisant le lieu grace au filtrage du bruit sur ces donnees. Les donnees proprioceptives recueillies 
depuis le noeud precedent sont ensuite utilisees pour creer ou modifier I’arete qui joint le noeud 
precedent au noeud courant. Ce processus de cartographie est decrit par I’algorithme 11.1 

Algorithm 11.1 - Algorithme de cartographie topologique pour un deplacement u et des per¬ 
ceptions Y 

i: if II existe noeudi compatible avec u, Y et Position t -\ then 

2 : Posit ion t = noeudi 

3: else 

4: Position t = nouveau noeud 

5: end if 

6: Mettre a jour donnees de Position r avec Y 

7 : Mettre a jour la connexion Position t -i - Position avec u 

Comme nous I’avons mentionne precedemment, dans le cas ou des informations metriques 
sont memorisees entre les lieux, la carte obtenue peut alors se reveler incoherente. Dans les 
methodes de cartographie incremental, la coherence peut etre assuree par I’association d’une 
position a chacun des noeuds de la carte [6, 137, 33, 98, 84], ou par une adaptation locale des 
valeurs des liens (figure 11 .3). Dans le cas ou ces valeurs seront ensuite simplement utilisees de 
maniere locale 1 , sans chercher a estimer les relations metriques entre lieux distants, le maintien 

1. Par exemple pour guider un robot entre deux noeuds voisins via I’odometrie relative 
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de la coherence peut etre simplement neglige [82, 43]. 

11.2.2 Cartes metriques : correlation de scan 

Une premiere methode simple de cartographie metrique incrementale consiste a simplement 
utiliser une methode de correlation de scans lasers ou de cartes locales. Lorsque le robot pro- 
gresse dans une zone encore non cartographiee, la correlation est simplement effectuee entre la 
carte locale courante et la carte locale precedente. La nouvelle carte locale est ensuite ajoutee a 
la carte de I’environnement a sa position estimee (Figure 11 .4). 



Figure 11.4- Exempte de carte metrique creee par correlation de scans. Chacun des cercles 
relie par une ligne indique le centre d’un scan ajoute a la carte (repris de [32]). 

Lorsque le robot revient ensuite dans une zone deja cartographiee apres avoir parcouru une 
boucle, la correlation peut etre faite entre la carte locale courante et la portion de la carte globale 
la plus proche de la position actuelle (en non uniquement avec la carte locale precedente). Ceci 
permet de re-estimer la position du robot dans la portion de carte deja construite, mais ne corrige 
pas la carte le long de la boucle. Nous verrons plus loin (section 11.3.1) comment etendre ces 
methodes pour corriger ces erreurs. 

Cette methode est en general suffisante lorsqu’elle est utilisees avec les donnees d’un tele¬ 
metre laser et dans un environnement de taille limitee ne contenant pas de grands cycles. Lors 
de la fermeture de grands cycles, par contre, elle montre rapidement ses limites car les erreurs de 
localisation ne permettent pas de trouver la bonne portion de carte avec laquelle faire la correla¬ 
tion. La methode echoue alors, mais il est possible d’ajouter des procedures specifiques qui font 
une recherche globale lorsqu’un cycle semble etre ferme et permettent de rattraper ces echecs 
[64]. 
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11.2.3 Cartes metriques : grilles d’occupation 

Une autre methode de cartographie incremental tres populaire est la construction de grille 
d’occupation. Rappelons que les grilles d’occupation sont une representation de I’environnement 
dans laquelle I’espace est discretise en cellules regulieres et dont chaque cellule a une probability 
associee d’etre occupee par un obstacle (Figure 11 .5). Le construction de grille d’occupation est 
I’une des premieres methodes de cartographie a avoir ete developpee. 



Figure 11.5- Exemple de grille d’occupation cree a partir de mesures d’un telemetre laser. 

Dans les premiers travaux de leurs createurs, Moravec et Elves [ 0 , 131], la construction de 
grilles d’occupation supposait la position du robot connue. Dans des developpements ulterieurs, 
toutefois, la grille en cours de construction est utilisee pour estimer la position du robot. On utilise 
pour cela des techniques de mise en correspondance de grilles similaires a celles presentees 
dans la section 10.2.3. Ces methodes de recalage permettent de limiter la derive de I’odome- 
trie, mais ne sont en general pas suffisantes pour garantir une cartographie correcte dans les 
environnement cycliques. Pour resoudre ce probleme, il est possible d’utiliser des hypotheses 
sur I’environnement, afin de permettre le recalage de I’odometrie durant la cartographie. Lhypo- 
these la plus couramment utilisee suppose que les murs de I’environnement sont rectilignes et 
orthogonaux [131,83], ce qui permet de corriger facilement I’estimation de la direction du robot. 

Apres avoir estime la position du robot, les valeurs des differentes cellules de la grille d’oc¬ 
cupation sont mises a jour en fonction des perceptions. Pour cela, nous disposons d’un modele 
des capteurs P(occj\s ) qui, pour une perception s donnee, nous fournit la probability d’occupation 
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des cellules dans le champ de vision du capteur en fonction de la valeur renvoyee par le capteur. 
Ce modele probabiliste est en general similaire a ceux presentes dans la section 4.2.2 pour la 
distance au capteur et utilise une erreur gaussienne pour I’ecart entre la direction de la cellule et 
la direction du capteur. 

Nous cherchons done a accumuler ces mesures pour estimer la probabilite pour la cellule i 
d’etre occupee en fonctions de toutes mesures precedentes : P(occJ) = P(occi\si, Pour 

cela, nous utilisons, comme souvent, la formule de Bayes pour extraire la probabilite de la derniere 
mesure en fonction des autres variables : 

T P(s T \oCCi,Sl,...,ST-l)P(oCCi\si,...,S T -l) 

PiOCC; — - 7 - T - r- 

P(st\si,...,ST-i) 

En faisant I’hypothese que le monde est statique, qui se traduit par le fait que les mesures sont 
conditionnellement independantes si Ton connaTt la valeur de la cellule de la carte, nous pouvons 
simplifier: 


P(occf ) 


P(sr\occi)P(occJ ! ) 


notre modele de capteur nous donnant P(occi\sr), nous le faisons apparaTtre en utilisant 
Bayes une nouvelle fois : 


r = P(oCCi\s T )P(s T ) Pjoccf *) 

P(oCCj ) P(s T \si,...,ST-l) 

Dans cette equation nous ne connaissons pas P(st) ni P(st\si,...,st-i)- Pour pouvoir esti¬ 
mer P{occJ), nous allons utiliser le fait que la valeur d’occupation est binaire. Nous commengons 
par calculer la probabilite que la cellule soit vide P(occf), ce qui se fait de la meme maniere : 


r = P(ocCj\sT)P(s T ) PjoccJ ! ) 

P(oCCi) P(s T \s h ...,S T -l) 


et nous permet en utilisant le rapport des deux valeurs, de se debarrasser des termes ge- 
nants. 


P(occf) P(occi\sr) P(occJ 1 )P(occ i ) 
P(occf) P(occi\s T ) P(occf- 1 ) P(oCCi) 


et en utilisant le fait que P(occi) — 1 —P(occi), nous obtenons : 


P(occf) P(occj\sT ) 1— P(occJ ! ) 1 —P{pCCi) 

1 -P(occf) 1 P(occi\s T ) P(occf~ l ) P(oCCi) 

il est alors possible d’extirper P(occJ) de cette expression, mais il est plus simple de chercher 
a estimer directement la valeur /,• definie par: 


l 1 


log 


( Pjoccf) \ 
\1 — P(°ccf) ) 
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qui se calcule simplement par: 



/ P{occj\s T ) \ 
\1 ~P(oCCi\s T )J 


+ log 


f 1 - P(ocq ) \ 
V P{occi) ) 



( 11 . 1 ) 


Ceci nous fournit une regie simple de mise a jour incrementale des valeurs if en fonction 
des valeurs precedentes et du modele de capteur. La valeur P(occi) est une valeur initiate de 
la probability d’occupation. Elle est en general choisie egale a 0,5 mais peut etre plus faible 
ou plus forte si Ton souhaite integrer un a priori sur le fait que I’environnement contient une 
densite plus ou moins grande d’obstacles. On retrouve ensuite la probability d’occupation par : 
p(occf ) = I — 1 / e 1 ' 


II existe egalement des moyens plus simples de mise a jour des grilles, qui consistent sim- 
plement a estimer la probability d’occupation d’une cellule en fonction du nombre de perceptions 
de cette cellule qui ont eu lieu. Ainsi, si on note occ(x,y ) le nombre de fois ou un obstacle a ete 
detecte dans cette cellule et vide(x,y ) le nombre de fois ou cette cellule est apparue vide car le 
faisceau du telemetre a traverse cette cellule, on peut simplement estimer la probability par: 


Pocc (• 


occ(x,y ) 

vide(x,y) +occ{x,y ) 


Une variante encore plus simple pour creer une grille d’occupation est une mise a jour utilisant 
un simple decompte dans lequel on ajoute une certaine valeur fixe a la probability d’occupation 
d’une cellule si un obstacle y est detecte et on retranche une autre valeur fixe si la cellule a ete 
traversee par le faisceau [78] (voir aussi la section 6.2). Cette methode, nominee "histogrammic in 
motion mapping (HIMM)" presente cependant I’inconvenient de ne pas converger vers une valeur 
fixe lorsque le nombre de perceptions d’une cellule tend vers I’infini. Elle est de plus relativement 
sensible au bruit et suppose des reglages delicats de parametres pour etre adaptee a un robot 
specifique. 


11.2.4 Strategies d’exploration 

Pour limiter les erreurs de cartographie dans ce types de methodes, il est possible d’utiliser 
une exploration active de I’environnement, plutot que de passivement memoriser les donnees 
recueillies par le robot. Dans le cadre des cartes topologiques, il est par exemple possible, lors- 
qu’un nceud a ete reconnu, de chercher a atteindre un des nceuds voisins memorise dans la carte 
[82], Si ce second noeud est correctement detecte, il permet de confirmer la detection du noeud 
precedent qui est alors mis a jour. D’autre modeles utilisent une exploration active de I’environne- 
ment pour diriger le robot vers les zones pour lesquelles I’incertitude de la carte est grande dans 
le but de la reduire [42], Enfin certains modeles sont capables de generer des hypotheses sur 
des portions non visitees de I’environnement qui sont ensuite verifiees grace a une procedure qui 
dirigera le robot dans les zones ou de telles hypotheses ont ete faites [83]. Des strategies d’ex- 
plorations peuvent egalement etre utilisees afin de garantir un exploration rapide et exhaustive de 
I’environnement [1 31 , 83, 1 47], 
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D’une maniere generate, de telles procedures permettent done, d’une part, de limiter les er- 
reurs de cartographie en insistant sur les zones incertaines et en evitant que I’estimation de la 
position ne devienne trop mauvaise et, d’autre part, de garantir une exploration exhaustive de 
I’environnement. 


11.3 Retour sur les modifications passees 

Dans les methodes de cartographie precedentes, les modifications apportees a la carte au 
cours du processus de cartographie se font done en supposant que I’estimation de la position 
du robot au moment de cette modification est correcte. Or cette estimation se revele en general 
fausse, ou entachee d’erreur, a posteriori. Dans ce cas, les modifications de la carte ont ete 
effectuees de maniere incorrecte, et il serait souhaitable de pouvoir revenir sur ces modifications 
pour prendre en compte les nouveaux indices sur les positions passees du robot. La plupart des 
modeles de cartographie utilises actuellement, que nous presentons dans ce paragraphe, en sont 
capables. 


11.3.1 Methodes de relaxation 





Figure 11.6 - Illustration du principe des methodes de relaxation. 


Une premiere methode pour prendre en compte la nouvelle information de position est de 
propager I’erreur tout le long du cycle parcouru par le robot. Cette methode peut s’appliquer 
a des cartes topologiques ou a des cartes de scans (voir section 11.2.2). Intuitivement, cela 
correspond a identifier la carte a un reseau de ressorts, dont les positions au repos correspondent 
aux positions relatives des nceuds (figure 11 .6). L’erreur lors de la fermeture de boucle correspond 
alors a un desequilibre dans ce reseau de ressort. Pour obtenir une carte globalement coherente 
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et qui respecte au mieux les positions relatives des noeuds, il suffit de calculer la position de repos 
du reseau de ressorts (d’ou le terme de methodes de relaxation). 



Node i 

[xi,Vi,0i] 


Node k 


Node j 


The size of the nodes is proportional 
to uncertainty. 


Relative displacement 
between nodes i and j 

Eij = [dij,Oij,ipij\ 


Figure 11.7- Principe de la methode de relaxation iterative de [35, 2], 


II existe differents algorithmes de relaxation. Nous presentons ici un algorithme iteratif tres 
simple qui donne de bons resultats [35, 2], Le principe de cet algorithme est de calculer la position 
de chaque noeud a partir de celle de ses voisins iterativement jusqu’a convergence des positions 
(figure 11 .7). Ainsi pour chaque noeud i, les trois etapes suivantes sont appliquees : 

- Estimation de la position du noeud i depuis chaque voisin j : 

{x'i)j = Xj + dji cos(0j,- + 6j) 

(y'i)j = yj ~ dji sinf Oy, — 0/) 

( 0 O; = 6 / + tyji 

et estimation de la variance du noeud i depuis le noeud j : 

( v 'i)j = v J + v ji 

- Estimation de la variance du noeud i par la moyenne harmonique des estimations depuis 
les voisins : 


( 11 . 2 ) 

(11.3) 

(11.4) 


(11.5) 

( 11 . 6 ) 


ou n t est le nombre de voisins du noeud i. 

- Estimation de la position du noeud comme la moyenne ponderee des estimations depuis 
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ses voisins : 



(11.7) 


( 11 . 8 ) 


0j = arctan 



(11.9) 


( 11 . 10 ) 


La figure 11.8 montre un exemple de I’application de cet algorithme a une carte topo-metrique. 
Les noeuds entoures montrent les fermetures de boucles, c’est a dire les retours detectes a une 
position precedente qui sont utilises pour contraindre le graphe. 



* 


2 m 



Figure 11.8 - Exemple de carte topo-metrique obtenue par vision pour la detection de fer- 
meture de boucle et relaxation, superposee a une carte metrique de reference obtenue par 
correlation de scans lasers (tire de [2]). 

Cet algorithme donne de bons resultats, mais peut etre assez lent a converger. En effet, si 
Ton applique la mise a jours a tous les noeuds dans un ordre fixe (I’ordre de creation des noeuds 
par exemple), I’erreur qui est localisee sur une seule arete au depart ne sera propagee que sur un 
voisin supplementaire a chaque tour. Pour accelerer la convergence, il est possible de simplement 
re-ordonner la mise a jour des noeuds afin que I’erreur se diffuse plus rapidement. 

C’est ce que propose par exemple I’algorithme TORO (Tree-based netwORk Optimizer) [61] 
qui construit un arbre associe au graphe de la carte pour determiner un ordre optimal de mise a 
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Figure 11.9 - Illustration de la construction de I’arbre associe a un graphe de I’algorithme 
TORO (tire de [61]). L’ordre de mise a jour optimal des noeuds pour la relaxation est donne 
par le parcours de I’arbre : 1, 2, 9, 3, 4, 7... 

jour. Cet arbre est construit simplement en ajoutant chaque nouveau noeud comme fils du plus 
ancien de ses voisins (figure 11 .9). La methode de mise a jour de la position des noeuds est en- 
suite appliquee dans I’ordre donne par le parcours descendant de I’arbre. Ainsi dans I’exemple de 
la figure 11.9, 1’erreur 2 initialement concentree sur I’arete entre les noeuds 1 et 9 sera propagee 
lors du premier parcours de la carte aux noeuds 9 et 2, puis 3, 4, 7. Avec une mise a jour dans 
I’ordre de creation des noeuds, la propagation aurait simplement ete faite aux noeuds 2, 3, 4... La 
premiere mise a jour n’aurait done modifie que la position du noeuds 9 et aurait ete nulle pour les 
autres. 

11.3.2 Cartographie par filtrage de Kalman etendu 

Le filtrage de Kalman etendu (section 10.3.3) peut aussi etre utilise pour la cartographie. 
C’est cette methode qui etait a I’origine presentee sous le terme SLAM [ 29, 91]. Le terme SLAM 
est depuis devenu plus generique et la cartographie par filtrage de Kalman etendu se retrouve 
souvent sous le nom "EKF SLAM". 

Le filtrage est ici utilise non seulement pour estimer la position du robot, mais aussi pour es- 
timer la position des differents elements enregistres dans la carte. Cette methode est en general 
utilisee avec des cartes representant I’environnement sous forme d’objets geometriques simples 
tels que des points ou des segments. Elle va permettre d’utiliser les relations mesurees entre le 
robot et ces objets pour estimer leurs differentes positions. 

Plus generalement, I’idee est done d’utiliser un filtrage Bayesien estimant a la fois les positions 
du robot (x t ) et des objets de la carte (c t ) : 


Bel(xt,c t ) =r\p(y t \x t ,c t ) J J p{x t ,c t \x t -\,c t -\,Ut-\)Bel(x t -i,c,-i)dx t -idc t -\ 


2. Definie comme I'ecart entre la position relative des noeuds enregistree dans I’arete et la position relative cal- 
culee par la difference de leur position absolue 
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Cette equation peut etre simplifiee en utilisant I’hypothese de monde statique, qui est utilisee 
dans la plupart des modeles, et qui entraine done que la carte de I’environnement reste la meme 
au cours du temps (c t — c t - 1 ). II taut bien distinguer cette hypothese du fait que notre estimation 
de la probability des differentes cartes ( Bel(x t , c t )) evolue au cours du temps, et done que la carte 
que nous supposons representer I’environnement (la plus probable en general) change au cours 
du temps. En utilisant cette hypothese, I’equation du filtrage devient alors : 


Bel(x t ,c t ) =r\p(y t \x t ,c t ) J J p{x t \x t -\,Ut-\)Bel(x t -\,c t -\)dx t -\dc t -\ 


Comme pour la localisation, ce filtrage peut etre implements de differentes manieres, par 
exemple en utilisant un filtre de Kalman ou un filtrage particulaire (voir section suivante). II peut 
egalement etre utilise avec differentes formes de cartes, qui rendent son implantation plus ou 
moins aisee. La technique communement nommee EKF SLAM consiste en I’implantation de ce 
filtrage sous la forme d’un filtre de Kalman etendu, en utilisant une carte contenant des amers qui 
peuvent etre des points ou des segments. C’est historiquement la premiere implantation de ce 
type de cartographie [129]. 

Detaillons a titre d’exemple une implantation de cette methode utilisant une carte contenant 
des amers ponctuels. Dans un etat ou la carte contient N amers, on utilise un vecteur d’etat 
contenant la position du robot et des differents amers. Le vecteur d’etat est done de dimension 
2N+3 : 


Bel(xt,c t ) 


x 

y 

0 

*al 

y a i 


%aN 

yaN 


La matrice de covariance associee permet de memoriser les relations qui ont ete pergues 
entre les amers et entre les amers et le robot. C’est I’utilisation de ces covariances lors de la 
mise a jour qui permettra un retour sur les modifications passees au sens ou elle permettra de 
propager toute nouvelle information de position du robot vers les elements dont la position relative 
avec le robot est connue (cad les elements avec lesquels la covariance est non nulle). 

Supposons que Ton commande les vitesses de rotation et de translation du robot u = (v,co), 
I’equation devolution ne modifiera que la position du robot et sera alors : 
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f(X t ,u) = 


Ce qui donne la matrice jacobienne : 


1 0 

0 1 

0 0 

0 ... 


A = 


x+ v.dt.cos(Q) 
y + v.dt.sin(Q) 
0 a.dt 

%al 

}’a\ 

%aN 

yaN 


—sin(Q) 0 
cos(O) 0 

1 0 


0 


0 

0 

0 

0 

0 


enfin si Ton suppose que lors de la perception de Tamer i, on mesure sa position relative dans 
le repere lie au robot en coordonnees polaires (r z -, I’equation d’observation sera : 


u (Y \- i y/( x - x «d 2 + (y-yai ) 2 

M I atan2(*^)-e 

la matrice jacobienne de I’equation d’observation s’ecrira alors : 


H,= 


{x-xgj) (y-y a i) 

\J {x-xai) 2 +(y-y a i ) 2 \J {x-xai) 2 +{y-y a i ) 2 

(y-yai) _ (x-xgj) 

(x-xai) 2 +(y-y a i ) 2 (. x-x a i) 2 +(y-y a i ) 2 


Pour estimer a la fois la position des amers et du robot, il suffira alors de derouler les equations 
du filtrage de Kalman etendu : 

- Prediction de I’etat: 


x; = f(x t _ hUt ) (ii.li) 

et de la covariance : 

P;=A.P t -i-A T + Q (11.12) 

- Prediction de I’observation : 

Y t *=h(X*) (11.13) 

- Observation : on obtient une mesure Y, dont on estime le bruit Py grace au modele du 
processus de perception. 
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- Correction de I’etat predit: 

X,=X*+K(Y-Y*) (11.14) 

P t = P* — KHPj (11.15) 

ou K est le gain de Kalman : 

K = P*H T ,(H.P*.H T +P Y )~ 1 (11.16) 

Cette mise a jour suppose que I’amer pergu soit deja dans la carte et done dans le vecteur 
d’etat. Si Tamer detecte par le robot n’est pas dans la carte, il est simplement ajoute a la fin 
du vecteur d’etat et toutes les matrices sont agrandies de 2 lignes (et eventuellement colonnes) 
correspondantes. 



Figure 11.10- Illustration de I’algorithme de SLAM par filtrage de Kalman. Dans la partie A, 
le robot, dans sa position initiale, pergoit les amers 1 et 2 qui sont ajoutes a la carte. Dans 
la partie B, le robot s’est deplace (on dispose d’une estimation bruitee de sa position par 
I’odometrie) et il pergoit les deux amers 3 et 4. Dans la partie C, on a considere que les amers 
2 et 3 etaient le meme amer, ce qui a permis de mieux estimer sa position et de corriger 
I’estimation de la position du robot. Lamer 4 a ete ajoute a la carte. 


II reste un probleme important dans la methode decrite car elle suppose que Ton soit ca¬ 
pable d’identifier les amers, e’est a dire de savoir a quel amer i correspond un amer pergu. Or, 
en utilisant de simples points ou segments de droites, cela se revele difficile a cause du tres fort 
perceptual aliasing. Comme pour la localisation, il y a deux methodes possibles pour resoudre ce 
probleme. La premiere est de particulariser chaque amer, par exemple en utilisant une image de 
I’environnement autour de I’amer afin de pouvoir I’identifier individuellement. Cette methode est 
rarement suffisante car avec I’augmentation de la taille de I’environnement on retombe en general 
sur le probleme de perceptual aliasing. La seconde solution repose sur des amers indistinguables 
et selectionne I’amer correct en se basant sur sa position estimee. Pour cela, on estime la po¬ 
sition absolue de I’amer pergu a partir de la position estimee du robot, puis on considere qu’il 
correspond a I’amer de la carte dont la position est la plus proche. Cette mise en correspondance 
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peut egalement utiliser une distance de Mahalanobis (voir section 10.3.3), ou utiliser des criteres 
supplementaires qui caracterisent les amers. Si les amers sont des segments, par exemple, on 
peut chercher le segment le plus proche qui ait la meme direction que le segment pergu. 

Lalgorithme 11.2 decrit finalement le processus complet de cette methode de cartographie. 
Cette methode est egalement illustree graphiquement dans la figure 11.10. 

Algorithm 11.2 - Algorithme de SLAM pour un deplacement u et un amer pergu Y 
i: Prediction de l’etatX f * = f(X t _\,u t ) 

2 : Estimation de la position et de la variance de I’arner pergu XY^yy^ XY ,<5y Y 

3: for all Amer i do 

4: Calcul de la distance de Mahalanobis df — \{Y — Yi) T (Py + /V,) -1 — Yj) 

5: end for 

6: Selection de I’arner j de la carte tel que dj soit minimal 
7: if dj < Seuil : I’arner est deja dans la carte then 
8: Prediction de I’observation Y* = hj{X*) 

9: Correction de I’etat predit X t +\ = X* +K(Y — Y*) 

10 : else 

1 1 : ajout de I’amer pergu a la carte 

12 : end if 

La principale faiblesse de cette methode reside dans la phase d’appariement qui peut en- 
trainer une divergence de I’algorithme en cas d’erreur. En effet, dans ce cas, non seulement la 
position de I’arner apparie par erreur sera mal estimee, mais cette mauvaise estimation sera pro- 
pagee aux autres amers, via la matrice des covariances, ainsi qu’a la position du robot. Cette 
mauvaise estimation de la position du robot produira par la suite de nouvelles erreurs d’apparie¬ 
ment qui se succederont et entraineront la divergence complete de I’algorithme. 

Un autre inconvenient est la complexite des calculs requis, qui augmente en 0(N 2 ) avec le 
nombre d’amers de la carte. Ceci est lie a la taille de la matrice de covariances qui est N x N. 
Or cette matrice memorise les interrelations entre les positions des amers et du robot et est 
necessaire a la bonne estimation de ces positions. 

Pour reduire la complexite des calculs, il est cependant possible de reduire la taille de cette 
matrice en negligeant certaines interrelations entre amers. Ceci peut se faire par exemple en ne 
memorisant les covariances qu’au sein de cartes locales, dont I’assemblage couvre I’ensemble 
de I’environnement. Diverses methodes existent, utilisant differentes manieres de decouper la 
carte globale et de propager les informations entre cartes locales (par exemple [109]). 


11.3.3 Fast SLAM 

La methode d’appariement des amers utilisee dans la methode du SLAM EKF est a la source 
de la plupart des problemes de cette methode. Elle repose en effet sur I’hypothese que I’estima- 
tion de la position du robot est approximativement correcte pour fournir un appariement correct. 
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On peut done remarquer que si la position du robot est parfaitement connue, le probleme se sim- 
plifie enormement car la mise en correspondance ne pose plus de probleme et il reste simplement 
a estimer correctement la position des amers, ce qui est relativement trivial (sous I’hypothese de 
la connaissance de la position du robot). 

Cette remarque a inspire la methode de cartographie nommee Fast SLAM [ 100, 70, 60]. Dans 
cette methode, on memorise un grand nombre de trajectoires possibles, dont on evalue la pro¬ 
bability, et pour ces trajectoires, on construit simplement la carte a partir des perceptions. Cet 
ensemble de trajectoires correspond en fait a un echantillonage de la distribution de probability 
sur ces trajectoires au moyen d’un filtre particulaire . Pour la construction de la carte a partir de 
I’une de ces trajectoires, on utilise le filtrage de Kalman, mais dans des conditions beaucoup plus 
favorables. En effet, comme la trajectoire est connue, les perceptions successives des differents 
amers deviennent independantes et il n’est plus necessaire de memoriser I’ensemble des cova¬ 
riances, mais seulement les variances des amers individuels. On passe ainsi d’une complexity 
en 0(N 2 ) a une complexity en 0{N) pour la partie filtrage de Kalman. II faut cependant y ajouter 
la complexity du filtrage particulaire sur les trajectoires, mais globalement, I’algorithme est plus 
stable et moins gourmand en calculs que le SLAM original. 

Cette methode de separation du probleme de SLAM et un filtre particulaire pour la partie non 
gaussienne et en un filtre de Kalman pour une partie du sous probleme est une methode tres 
generale connue sous le nom de Rao-Blackwellisation du filtre. 



Figure 11.11- Avant la fermeture d’un cycle , un tres grand nombre de trajectoires sont eva- 
luees. Apres fermeture, le filtre particulaire sur les trajectoires selectionne automatiquement 
celle correspondant effectivement au cycle (image tiree de [ 70 ]). 

La force de ces methodes est surtout apparente lors de la fermeture de grands cycles. En 
effet, avant la fermeture, un grand nombre de trajectoires differentes sont memorisees, ce qui 
permet d’avoir une forte probability que I’une d’elle corresponde a la trajectoire precise du cycle. 
Apres la fermeture du cycle, le re-echantillonage du filtre particulaire selectionne naturellement 
les trajectoires correctes et permet ainsi une cartographie correcte du cycle (Figure 11.11). Ce 
re-echantillonage entraine cependant une forte perte d’information, puisque la plupart des tra- 
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jectoires estimees avant la fermeture de boucle sont ignorees (c’est le probleme classique de 
rarefaction des particules des methodes de filtrage particulaire, voir section 10.4.4). Cette perte 
d’information devient problematique dans des environnements contenant plusieurs cycles, no- 
tamment dans le cas de cycles imbriques. 



Figure 11.12 - Exemple de carte construite par la methode du FastSLAM. Cette carte 
contient de nombreux couloirs et plusieurs boucles et represente done un probleme difficile 
pour le SLAM (image tiree de [ 60 ]). 


Une methode de cartographie tres similaire au FastSLAM permet de construire une carte 
metrique directement a partir des donnees laser [ 70 ]. Elle n’utilise pas de filtre de Kalman, mais 
repose sur un echantillonage des trajectoires possibles par un filtre particulaire et sur un algo- 
rithme rapide de correlation de scans pour revaluation des probability des trajectoires. Cette 
methode permet de construire de tres grandes carte contenant plusieurs cycles (Figure 11.12). 
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11.4 Comparaison des methodes de cartographie 

Les methodes de cartographie les plus simples sont les methodes de cartographie incremen- 
tales topologiques, elles montrent cependant rapidement leurs limites en terme de robustesse et 
demandent souvent une mise au point importante pour obtenir une capacite de reconnaissance 
de noeuds suffisamment fiables. 

Concernant la cartographie metrique, les methodes de correlation de scans laser et de grille 
d’occupation sont egalement assez simples a mettre en oeuvre et sont suffisantes pour des envi- 
ronnements de taille restreinte, ne contenant notamment pas trop de cycles. Elles sont done tres 
populaires. 

Les methodes de SLAM seront en general plus efficaces, mais plus complexes a mettre en 
oeuvre. La version basique du SLAM utilisant un filtre de Kalman reste cependant assez simple, 
mais au prix d’un manque de robustesse en cas de mauvaises perceptions ou de mauvaise 
odometrie et d’une grande sensibilite a la qualite de I’association de donnees. Le FastSLAM 
quant a lui est plus complexe mais apporte de reels gains de robustesse, il est cependant limite 
par le probleme de rarefaction des particules qui devient problematique pour les environnements 
de grande taille contenant plusieurs cycles. 


11.5 Pour aller plus loin 

Les archives de la "SLAM summer school" de 2002 contenant de nombreux articles et tuto- 
riels : 

http://www.cas.kth.se/SLAM/ 

Un site regroupant de nombreux algorithmes de SLAM en open-source : 

http://www.openslam.org/ 

Le livre "Probabilitic Robotics" de Sebastian Thrun, Wolfram Burgard et Dieter Fox [135] de- 
taille de maniere tres precise I’ensemble des algorithmes de SLAM. 
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Chapitre 12 
Planification 


Connaissant une carte de I’environnement et la position du robot au sein de cette carte, il 
est possible de calculer une trajectoire pour rejoindre un but. Nous decrirons dans ce chapitre 
quelques methodes simples pour la planification restreinte a des deplacements en 2D. Pour un 
apergu plus large des techniques de planification, on pourra par exemple se reporter a [88] ou 
[90]. 


12.1 Espace des configurations 

Dans le cadre de ce cours, nous considerons des robots capables de se deplacer dans un 
espace a 2 dimensions dont les commandes influent avec des relations simples sur la position 
dans cet espace (via la vitesse et la direction). Le calcul des deplacements peut done se faire 
directement dans I’espace de la carte, en evitant seulement les positions qui conduiraient a des 
collisions avec les obstacles. Dans un cadre plus general, la planification est plutot realisee dans 
I’espace des degres de liberte du robot appele espace des configurations (qui peut etre beaucoup 
plus grand que I’espace des mouvements, par exemple pour un bras manipulateur). Les obstacles 
de I’espace des deplacements sont alors traduits dans I’espace des configurations par des C - 
obstacles, qui correspondent aux configurations des degres de liberte qui vont faire percuter un 
obstacle au robot. 
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Figure 12.1 - Illustration de I’espace des configurations dans le cas 2D. Gauche : Carte des 
obstacles. Droite : espace des configurations contenant les positions accessibles au robot 
sans percuter les obstacles (en blanc). 
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Dans le cas 2D pour un robot holonome , I’espace des configurations que nous utiliserons 
sera done simplement I’espace de travail auquel nous enleverons toutes les positions conduisant 
a percuter un obstacle (figure 12.1), e’est a dire les obstacles euxmeme, plus une marge de 
securite autour des obstacles correspondant au rayon du robot. 


12.2 Discretisation de I’espace de recherche 

Les algorithmes de planification utilisent en general des methodes de recherche de chemin 
dans des graphes. II faut done representer la carte sous la forme d’un graphe. Les cartes topo- 
logiques fournissent directement ce graphe, mais dans le cas des cartes metriques, qui repre¬ 
sented I’espace de maniere continue, ces techniques ne sont utilisables qu’apres discretisation 
de I’espace libre represente dans la carte. Pour ce faire, certains modeles integrent directement 
cette decomposition au niveau de la cartographie, en construisant une carte topologique paral- 
lelement a la carte metrique [5, 29, 13 , 22], D’autres modeles font appel a des decompositions 
de I’espace libre specifiques a la planification. Notons qu’il existe egalement des techniques, 
tels les champs de potentiel analogues a ceux decrits dans le chapitre sur la navigation reac¬ 
tive [87, 38, 104] qui permettent de calculer des chemins directement dans le domaine continu, 
sans phase prealable de discretisation. Nous n’aborderons cependant pas ces techniques dans 
ce cours. 




Decomposition Decomposition Decomposition 

exacte en cellules regulieres en quadtree 

Figure 12.2 - Exemples de decompositions en cellules de I’espace libre dans les cartes 
metriques. 

II existe deux categories de methodes pour discretiser I’espace de recherche des cartes me¬ 
triques. Les methodes de la premiere categorie font appel a des decompositions en cellules, de 
differents types, qui permettent de representer la topologie de I’espace libre [87, 104] (cf. figure 
12.2). La decomposition exacte permet de representer I’ensemble de I’espace libre, a I’aide de 
cellules de formes irregulieres qui joignent les sommets des obstacles. La decomposition en cel¬ 
lules regulieres pave I’espace libre de carres, sur-estimant done la surface des obstacles, ce qui 
peut etre genant si les cellules sont grandes. Ce type de representation peut aussi correspondre 
en pratique a une grille d’occupation pour laquelle ce probleme ne se pose pas. Enfin une re¬ 
presentation hierarchique telle que le «quadtree» permet d’utiliser des cellules de taille variable 
en fonction de la complexite locale de I’environnement et de representer done finement I’espace 
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libre tout en limitant I’occupation memoire. Les cellules obtenues sont ensuite utilisees de ma- 
niere similaire aux noeuds des cartes topologiques dans le processus de planification, les cellules 
adjacentes etant considerees comme reliees par une arete. 



Graphe de visibilite Diagramme de Voronoi Rapidly exploring 

random trees 


Figure 12.3 - Exemptes de decompositions en chemins pre-calcules dans les cartes me- 
triques. 

Les methodes de la seconde categorie font appel au pre-calcul de chemins entre des points 
repartis dans I’environnement [87, 88] (cf. figure 12.3). Le graphe de visibilite utilise les angles 
d’obstacles qui sont les points que le robot devra contourner pour eviter ces obstacles. Le dia¬ 
gramme de Voronoi utilise les points equidistants de plusieurs obstacles qui permettent de ge- 
nerer des chemins passant le plus loin possible des obstacles. La methode "Rapidly exploring 
Random Trees" [89] quant a elle, construit un arbre aleatoirement en verifiant que les branches 
creees ne rencontrent pas les obstacles. Cette methode est tres efficace car elle permet d’echan- 
tillonner I’espace sans le parcourir de maniere exhaustive et peut aussi prendre en compte les 
contraintes de non-holonomie du robot. Les point sont ensuite utilises comme les noeuds d’une 
carte topologique, tandis que les chemins pre-calcules reliant les noeuds seront utilises comme 
les aretes de cette carte. 

[i^f; | |^g i *-v m 

Planification entre Planification selon Optimisation de la 

cellules des chemins trajectoire 

Figure 12.4 - Exemple de planification de chemin dans une carte metrique. Deux portions 
de trajectoire sont calculees pour relier le point de depart et le but a des points de I’espace 
discretise (points 1 et 2 dans cet exemple). Un chemin est ensuite calcule dans I’espace 
discretise entre ces deux points. La trajectoire resultante peut ensuite etre optimisee pour 
supprimer les effets de la discretisation. 

La planification du chemin entre deux points de I’environnement se realise alors en deux 
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etapes. La premiere etape permet de calculer un chemin direct entre, d’une part, le point de depart 
et le point le plus proche dans I’espace discretise et, d’autre part, le point de I’espace discretise 
le plus proche du but et le but en question. La seconde etape permet ensuite de calculer un 
chemin entre ces deux points de I’espace discretise, en utilisant une des methodes decrites dans 
le prochain paragraphe. Ces trois parties de trajectoires sont ensuite assemblies pour obtenir 
le chemin reliant le point de depart au but. Une phase d’optimisation supplemental peut etre 
utilisee pour limiter les effets de la discretisation et lisser la trajectoire (cf. figure 12.4). Dans le cas 
de la decomposition de I’espace libre en cellules, les points de I’espace discretise utilises peuvent 
etre les centres des cellules ou les milieux des cotes des cellules. Dans le cas de I’utilisation de 
chemins pre-calcules, ces points sont simplement les points de passage de ces chemins. 


12.3 Recherche de chemin 

A partir d’une carte metrique discretisee ou d’une carte topologique representee sous forme 
d’un graphe, il existe differentes methodes pour calculer un chemin entre la cellule de depart et 
la cellule but. Nous distinguons ici les methodes selon le type de plans qu’elles generent. 


12.3.1 Deux types de plan 

Le premier type de plan qui peut etre genere contient une suite d’actions a effectuer par le 
robot, ou une suite de points a atteindre afin de rejoindre le but. Les algorithmes classiques de 
recherche dans les graphes, tels que I’algorithme de Dijkstra, A*, ou I’une de leurs nombreuses 
variantes, peuvent etre utilises pour calculer ce type de plan [93, 79, 81 , 120, 106, 5, 38]. La taille 
raisonnable des cartes topologiques classiquement utilisees en robotique rend ces algorithmes 
suffisamment efficaces en pratique. Ce type de plan pose toutefois des problemes lors de son 
execution si le robot ne parvient pas a atteindre I’un des points du chemin calcule, ou s’il s’eloigne 
de la trajectoire et que sa position correspond a un noeud qui ne fait pas partie du chemin planifie. 
La solution a ces problemes est alors de recommencer le processus de planification en prenant 
en compte la nouvelle position de depart (ce qui peut meme se produire indefiniment en cas de 
probleme). Ce processus de replanification est souvent inutilement couteux en calcul car un grand 
nombre des operations necessaires auront deja ete effectuees lors de la planification precedente. 

Un second type de plan peut etre utilise, qui associe a chacune des positions possibles du 
robot au sein de la carte Taction qu’il doit effectuer pour atteindre son but. Ce type de plan est ap- 
pele politique (comme pour I’apprentissage par renforcement, section 7) ou plan universe! [121]. 
Le resultat est alors une strategie de deplacement similaire a la strategie d’action associee a un 
lieu mentionnee dans la section 2.1. L’enchamement de reconnaissances de positions et de rea¬ 
lisations des actions associees a ces positions permet done de generer une route joignant le but. 
Ce type de plan presente I’avantage de permettre au robot d’atteindre le but, aussi longtemps 
qu’il possede une estimation correcte de sa position. En effet, le chemin precis rejoignant le but 
n’est pas specifie et le robot peut done s’ecarter du chemin direct entre la position initiale et le but 
sans entrainer de replanification. 
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Une politique est plus lourde a calculer que les plans du type precedent car toutes les positions 
de la carte doivent etre envisagees, sans utiliser les heuristiques des algorithmes precedents qui 
permettent de restreindre I’exploration de I’espace de recherche. Toutefois, cette augmentation 
est rapidement compensee si le robot s’ecarte du chemin direct vers le but. Dans ce cas, en 
effet, la planification doit etre reprise pour le premier type de plan, alors que c’est inutile pour une 
politique. Le calcul d’une politique reste done en general praticable pour les cartes de taille limitee 
typiques de la robotique mobile. 

12.3.2 Calcul de politique 

Pour calculer une telle politique, une simple recherche en largeur dans le graphe en partant du 
but peut etre utilisee. Cette methode se retrouve sous le nom de breadth first search, spreading 
activation [98, 1 0] ou wavefront propagation [ 1 04], Ces deux derniers noms viennent de I’analogie 
entre I’ordre de parcours du graphe et la maniere dont un fluide progresserait s’il s’echappait du 
but pour se repandre dans le graphe. 

Plutot que d’associer directement une action a chaque etat, le calcul d’une politique passe 
souvent par le calcul d’un potentiel associe a chaque etat qui augmente en fonction de la distance 
necessaire pour atteindre le but depuis I’etat courant. A partir de ce potentiel, il est alors tres 
simple de retrouver les actions a effectuer par une simple descente de gradient. 

Pour calculer ce potentiel, des couts elementaires sont associes a chaque noeuds et a chaque 
lien entre les noeuds. Les couts associes aux liens traduisent en general la distance entre noeuds, 
tandis que les couts associes aux noeuds permettent de marquer des zones a eviter ou a favoriser 
pour les trajectoires du robot. 

Algorithm 12.1 - Algorithme de Dijkstra 

i: S = ensemble vide; R = ensemble de tous les noeuds; 

2 : for all Noeuds i do 

3: d(i) = +°°; 

4: end for 

5: d(but) = 0; 

6: while R n’est pas vide do 

7: u = Extract-Min-d(R) 

8: S = S union u 

9: for all Noeud v voisin de u do 

10: if d(v) > d(u) + w(u,v) + w(v) then 

11: d(v) = d(u) + w(u,v) + w(v) 

12 : end if 

13: end for 

14: end while 

La methode la plus simple pour calculer le potentiel est I’algorithme de Dijkstra (12.1), qui, 
partant du but fait a chaque etape la mise a jour du noeuds suivant de potentiel le plus faible. Cet 
algorithme suppose que tous les couts utilises sont positifs ou nuls. 
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Algorithm 12.2 - Algorithme de Bellman-Ford 

1 : {%} Retourne FAUX si il y a un cycle de cout total negatif 

2 : for all Noeuds i do 

3: d(i) = +°o; 

4: end for 

5: d(but) = 0; 

6: for i=1 jusqu’a Nombre de sommets do 

7: for all liens (u,v) du graphe do 

8 : if d(v) > d(u) + w(u,v) + w(v) then 

9: d(v) = d(u) + w(u,v) + w(v) 

10 : end if 

11: end for 

12 : end for 

13: for all liens (u,v) du graphe do 

14: if d(v) > d(u) + w(u,v) + w(v) then 

15: return FAUX 

16 : end if 

17: end for 

18: return VRAI 

Une seconde methode pour calculer ces potentiels lorsque certains couts sont negatifs est 
I’utilisation de I’algorithme de programmation dynamique de Bellman-Ford (12.2), aussi connu 
sous le nom de value iteration, notamment en apprentissage par renforcement [22, 31 , 23]. Une 
iteration de cet algorithme utilise quasiment la meme methode de mise a jour que I’algorithme 
de Dijkstra mais sans utiliser le meme ordre dans les mises a jour des noeuds. En presence de 
couts negatifs, cette iteration doit etre repetee autant de fois qu’il y a de noeuds pour garantir la 
convergence. De plus il peut arriver qu’un cycle du graphe ait un poids total negatif, ce qui ne 
permet pas de trouver de chemin de cout minimal. Lalgorithme retourne FAUX dans ce cas. 

La figure 12.5 permet de comparer I’ordre des mises a jour des valeurs de potentiels pour 
I’algorithme de Dijkstra et pour Value Iteration, qui aboutissent au meme resultat. 


12.3.3 Calcul d’un chemin 

Si Ton ne souhaite que calculer un chemin, il est par exemple possible d’employer I’algorithme 
A*. Cet algorithme utilise exactement le meme mecanisme que I’algorithme de Dijkstra, mais uti¬ 
lise une heuristique pour choisir le nceud suivant a explorer au lieu d’explorer systematiquement 
les noeuds voisins des noeuds deja planifies. Cette heuristique doit fournir une evaluation la plus 
rapide possible de la distance entre le noeud courant et le but (par exemple simplement la distance 
euclidienne en supposant qu’il n’y a pas d’obstacles). La mise en place d’une bonne heuristique 
assure de trouver tres rapidement un chemin vers le but, mais ne garantit pas forcement I’optima- 
lite (ce qui n’est souvent pas tres important en pratique). 
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Figure 12.5 - Propagation des valeurs de potentiel selon I’algorithme utilise. Les poids as- 
socies aux noeuds (ici les cases d’une grille d’occupation) sont nuts, et les poids des liens 
sont la distance entre deux noeuds. La rangee du haut montre les resultats de I’algorithme de 
Dijkstra, celle du has ceux de Value Iteration. 

12.4 Exemples de politiques 



Figure 12.6 - Gauche : Potentiel et exemple de trajectoires avec des poids de liens egaux 
a la distance entre noeuds. Centre : Poids associe aux noeuds fonction de la distance aux 
obstacles. Droite : Exemples de trajectoires obtenues en utilisant les poids de I’image du 
centre. 


La figure 12.6 donne a gauche un exemple de champ de potentiel obtenu en utilisant un poids 
nul pour les noeuds et la distance entre noeuds comme poids sur les liens. Avec ce type de carte, 
ce choix pose le probleme de generer des trajectoires tres proche des obstacles, qui peuvent etre 
dangereuses pour le robot. 

Pour eviter ce probleme, il est possible d’associer un poids dependant de la distance a I’obs- 
tacle le plus proche a chacun des noeuds. Ceci a pour but de penaliser les trajectoires proches 
des murs et de guider le robot selon I’axe des couloirs au lieu de longer un des murs. La figure 
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12.5. CHOIX DE L’ACTION AVEC UNE POSITION INCERTAINE 


12.6 montre a droite le poids associe aux noeuds et les trajectoires obtenues. 


12.5 Choix de Taction avec une position incertaine 

Lorsque la position estimee par le systeme de localisation est non ambigue, I’utilisation d’une 
politique se resume simplement au choix de Taction associee avec la position courante. Toutefois, 
les systemes realisant le suivi de plusieurs hypotheses fournissent egalement une estimation de 
la probability de presence du robot en differentes positions. II peut done se reveler utile de tenir 
compte de ces probability pour selectionner Taction a executer. 
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Figure 12.7 - Exemple de I’interet d’une procedure de vote dans le cas ou la situation du 
robot est incertaine. Si I’on choisit I’action associee a la position la plus probable, le robot 
ira en haut, ce qui correspondra a I’action correcte avec une probabilite 0,2. En utilisant une 
methode de vote, I’action choisie sera d’alter a droite, ce qui sera correct avec une probabilite 
0 , 8 . 

Differentes methodes permettent de prendre ces probability en compte. Une premiere me¬ 
thode consiste a utiliser une methode de vote [ 27, 27]. Pour cela, une action est simplement 
associee a chacun des noeuds de la carte, en utilisant une des methodes decrites au paragraphe 
precedent. Un score est alors calcule pour chaque action. Ce score est la somme des probability 
des noeuds auxquels chaque action est associee. L’action ayant le score le plus eleve est alors 
executee. Cette methode est efficace dans les cas de grande ambigui'te dans la localisation, ou 
la probabilite de la position la plus probable est seulement tres legerement superieure aux autres. 
Dans ce cas, en effet, si la direction associee a la position la plus probable est incorrecte, cette 
methode permet de I’ignorer et de choisir une direction associee a plusieurs autres hypotheses 
de position qui se revelera correcte dans un plus grand nombre de cas (cf. figure 12.7). 

La methode precedente tente de diriger le robot vers le but quelle que soit I’incertitude de 
I’estimation de sa position. Or si cette estimation est tres incertaine, il est souvent plus judicieux 
de chercher d’abord a mieux I’estimer avant de chercher a rejoindre le but. II est ainsi possible 
de mesurer la confiance dans I’estimation courante de la position pour choisir une action. Cette 
confiance peut etre simplement mesuree par I’entropie de la distribution de probabilite [27, 132], 
Ainsi, si I’entropie de la distribution de probabilite representant la position est trop elevee, une 
action permettant de diminuer cette entropie sera selectionnee. L’utilisation de telles strategies 
permet par exemple d’eviter des zones dans lesquelles I’incertitude de localisation est plus grande 
(par exemple les larges espaces ouverts), et de privilegier les zones plus favorables a I’estimation 
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de la position (par exemples les zones ou se trouvent des points de repere fiables). Cette methode 
a ete presentee sous le nom de "Coastal Navigation" [ 1 5]. 


12.6 Pour aller plus loin 

Robot Motion Planning and Control de J.-P. Laumond. Lectures Notes in Control and Informa¬ 
tion Sciences 229. Springer, 1998 [88]. Disponible en ligne : 

http://homepages.laas.fr/jpl/book.html 

Planning algorithms de Steven M. La Valle, Cambridge University Press, 2006 [90]. Disponible 
en ligne : 

http://planning.cs.uiuc.edu/ 
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